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Empfehlung 



Empfehlungen der Gesellschaft fur Medizinische 
Ausbildung und des Medizinischen Fakultatentags fur 
fakultatsinterne Leistungsnachweise wahrend des 
Studiums der Human-, Zahn- und Tiermedizin 

Zusammenfassung 

Die Praxis der Leistungserfassung bei Studierenden der Human-, Zahn- 
und Tiermedizin an Hochschulen und Universitaten im deutschsprachi- 
gen Raum hat in der letzten Dekade bedeutende Anderungen erfahren. 
Die Betonung der praktischen Anforderungen an die arztliche Tatigkeit 
in der Ausbildung weg von einer oft theoriedominierten Lehre, die wis- 
senschaftliche Auseinandersetzung mit den Grundlagen der Vermittlung 
von arztlichem Wissen und Fertigkeiten sowie geanderte gesetzliche 
Rahmenbedingungen erfordern einen stetigen Anpassungsprozess von 
Lehre und der Art und Weise, Prufungen im Medizinstudium durchzu- 
fuhren. Urn hier Qualitatsstandards zu etablieren, wurden im Jahr 2008 
von der Gesellschaft fur medizinische Ausbildung Empfehlungen zur 
Durchfuhrungfakultatsinterner Prufungen verabschiedet, die nunmehr 
einer Aktualisierungunterzogen wurden und gemeinsam vom Ausschuss 
Prufungen der GMA mit dem Medizinischen Fakultatentag (MFT) als 
Empfehlungen fur die Durchfuhrung qualitativ hochwertiger Prufungen 
verabschiedet wurden. 

Schliisselworter: Empfehlungen, Prufungen 
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Einleitung 

Diese Empfehlungen fur fakultatsinterne Prufungen sind 
an alle Mitarbeiterinnen und Mitarbeiter 1 der human-, 
zahn- und tiermedizinischen Fakultaten in Deutschland, 
Osterreich und der Schweiz gerichtet, die mit der Planung, 
Durchfuhrung und Auswertung von fakultatsinternen 
Prufungen betrautsind, also Dozentinnen und Dozenten, 
Studiendekanate und aufgrund der engen Verzahnung 
von Prufungen und Lehre auch Curriculumsentwickler 
und Lehrverantwortliche. Die Empfehlungen beinhalten 
Qualitatsstandards, die u. a. fur eine objektive, zuverlas- 
sige, valide - und damit justifiable - Prufung Vorausset- 
zungsind. In Form einer Checkliste geschrieben, sollen 
die Empfehlungen als praktisches Arbeitsinstrumentzur 
Organisation von Prufungen dienen. 

Hintergrund 

Im Jahr 2008 legte der GMA-Ausschuss Prufungen ge- 
meinsam mit dem Kompetenzzentrum fur Prufungen in 
der Medizin Baden-Wurttemberg„Leitlinien furfakultats- 
interne Leistungsnachweise in der Medizin" vor [1]. Diese 
sollten dabei helfen, konsentierte Qualitatsstandards fur 
die durch die Neufassungder Arztlichen Approbationsord- 
nung des Jahres 2002 erforderlichen Prufungen an den 
medizinischen Fakultaten in Deutschland zu etablieren, 



die den international anerkannten Anspruchen an quali- 
tativ hochwertige Verfahren der Leistungserfassung ge- 
nugen (z. B. [2], [3], [4]). Ihre Bedeutung zeigt sich an 
verschiedenen Publikationen zu Prufungsformaten und 
der Qualitat universitarer Prufungen, die auf dem Hinter- 
grund dieser Empfehlungen entstanden [5], [6], [7]. 
Die wesentliche Bedeutung von Leistungsruckmeldungen 
und Leistungserfassungen und ihrer lernsteuernden 
Wirkungfur die medizinische Ausbildung und die daraus 
folgende Notwendigkeit einer systematischen Einbindung 
des Prufungsgeschehens in das Curriculum („constructive 
alignment", „programmatic assessment" [8], [9], [10], 
[11], [12]) sind allgemein anerkannt, ihre praktische 
Umsetzung ist vielfach jedoch noch defizitar. Dies gilt 
insbesondere bei Lehrinhalten, die uber die traditionell 
vorherrschende Vermittlung von medizinischem Experten- 
wissen hinausgehen, wie sie etwa im CanMEDS-Rollen- 
modell der arztlichen Tatigkeiten beschrieben sind. Auf 
der Grundlage dieses Rollenmodells werden im Schweizer 
Lernzielkatalog und dem sich in Entwicklung befindenden 
„Nationalen kompetenzbasierten Lernzielkatalogs Medi- 
zin" (NKLM) [13] in Deutschland die erforderlichen Qua- 
lifikationen und Kompetenzen der arztlichen Ausbildung 
definiert. 

Diese Entwicklungen in den Anforderungen an die arztli- 
che Ausbildung mussen sich somitauch in den Verfahren 
zur Leistungserfassung spiegeln, neue Prufungsformate 
und -methoden zur Erfassung der fur die Ausubung des 
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arztlichen Berufs erforderlichen Qualifikationen und 
Kompetenzen mussen entwickelt und eingesetzt werden. 
Fur die Praxis der Prufungen in der medizinischen Ausbil- 
dung bedeutet dies, dass haufiger verschiedene Prufungs- 
formen kombiniert werden, formative Prufungen im Ver- 
gleich zu summativen Prufungen einen breiteren Raum 
einnehmen [12], sowie kriteriumsorientierte Bewertungen 
einen hoheren Stellenwert aufweisen sollten. Dem soil 
die vorliegende Aktualisierung der Empfehlungen von 
2008 Rechnungtragen. Insbesondere ist dabei sicherzu- 
stellen, dass an innovative Prufungsformen die gleichen 
Qualitatsanspruche bezuglich Messzuverlassigkeit und 
Aussagekraftgestel It werden wie an traditionelle Prufungs- 
methoden. 

Schwerpunktder Empfehlungen sind nach wie vor Prufun- 
gen, die zur Erlangung von Leistungsnachweisen an den 
medizinischen Fakultaten erbracht werden mussen. Sol- 
che „summativen oder bilanzierenden Beurteilungen 
bezwecken die abschlieSende Ermittlung eines Lern- 
stands" [14]. Die formalen - insbesondere gesetzlichen 
- Anforderungen an rein formative Prufungen sind i. A. 
deutlich geringer, fur die inhaltliche Qualitat der Aufgaben 
gelten jedoch die gleichen Anspruche wie bei summativen 
Prufungen. 

Den Verfassern dieser Empfehlungen ist bewusst, dass 
eine vollstandige Umsetzungdie medizinischen Fakulta- 
ten vor erhebliche organisatorische und personelle Pro- 
bleme stellt, die nur mittel- oder sogar langerfristig zu 
bewaltigen sind. Dennoch zeigen Beispiele an den medi- 
zinischen Fakultaten, dass samtliche Punkte der Empfeh- 
lungen erfullbar sind. Die Fakultaten sind deshalb aufge- 
rufen, in einem kontinuierlichen Prozess die Qualitat ihrer 
Leistungserfassungen und -bewertungen zu verbessern. 
Urn dies zu unterstutzen, ist vorgesehen, durch den Aus- 
schuss Prufungen der GMA beispielgebende praktische 
Ansatze zu Umsetzungen der Anforderungen der vorlie- 
genden Empfehlungen zu veroffentlichen. 

Aktualisierung der Empfehlungen 

Auf Grund der oben erwahnten Entwicklungen wurde vom 
Ausschuss Prufungen der GMA im Jahr 2012 eine Aktua- 
lisierungder Empfehlungen aus dem Jahr 2008 beschlos- 
sen. Im Rahmen der Jnternational Conference in compe- 
tency-based Assessment" in Heidelberg am 04.07.2012 
wurden erste Verbesserungsvorschlage (vgl. [15]) entwor- 
fen und in einer weiteren Sitzungam 27.09.2012 bei der 
Jahrestagung der GMA in Aachen gemeinsam mit der Ar- 
beitsgruppe Prufungen des MFT die Themenbereiche 1- 
4 der Empfehlungen (Allgemeine strukturelle Vorbedin- 
gungen, Prufungskonzeption und -bewertung, organisato- 
rische Vorbereitungen zur Prufungsdurchfuhrung, 
Durchfuhrung der Prufung) eingehend diskutiert und 
Verbesserungen erarbeitet. Eine weitere Diskussion sowie 
die Behandlung der Themenbereiche 5-7 (Auswertung 
und Dokumentation, Ruckmeldungan die Studierenden, 
Prufungsnachbereitung) erfolgten auf der Sitzung des 
Ausschusses Prufungen der GMA und der AG Prufungen 



des MFT wahrend der GMA-Tagung am 26.9.2013 in 
Graz. Nach der Einarbeitung der dort beschlossenen 
Veranderungen wurde die Aktualisierung in einem Um- 
laufverfahren weiter erganzt. Im Januar 2014 erfolgte 
eine externe juristische Prufung 2 dieser Version durch 
eine auf Prufungsrechtspezialisierte Kanzlei in Hannover. 
Die daraus erwachsenen Anderungen wurden Anfang 
Februar 2014 eingearbeitet und am 11.2.2014 in einer 
Sitzung des Ausschusses Prufungen der GMA diskutiert. 
Noch offene Punkte wurden auf dieser Sitzung geklart 
und eingearbeitet. Die Empfehlungen wurden sowohl in 
der Arbeitsgruppe Lehre des Medizinischen Fakultaten- 
tags (MFT) und dem Vorstand der GMA im Mai 2014 
vorgestellt und verabschiedet. Sowohl MFT und GMA 
unterstutzen die Empfehlungen, die Leitliniencharakter 
haben. 

Erlauterung zur neuen Version der 
Empfehlungen 

Die erste Version der Empfehlungen [1] bestand aus den 
als Checkliste formulierten Einzelpunkten und zugehdri- 
gen nummerierten Erlauterungen. Urn die Lesbarkeitzu 
erleichtern, sind in dieser Version die einzelnen Punkte 
der Empfehlungen mit entsprechenden Erlauterungen 
als fortlaufender Text formuliert, eine zusatzliche Check- 
liste befindetsich im Anhang. Die in der Checkliste aufge- 
listeten Einzelkriterien sind im folgenden Text jeweils 
kursiv gesetzt (siehe Anhang). 

1. Allgemeine strukturelle 
Vorbedingungen: Inhaltliche und 
formale Voraussetzungen 

Die strukturellen Vorbedingungen umfassen Kriterien, 
die die curriculare Einbindungder Lehrveranstaltung(en), 
auf diesich die Prufungen beziehen, gewahrleisten sollen, 
formale Anforderungen zur Information der Studierenden 
und Regularien sowie Qualifizierung der Prufungsverant- 
wortlichen. Sie beziehen sich damit nichtauf Vorbereitung 
oder Durchfuhrung einer konkreten Prufung sondern be- 
treffen die Rahmenbedingungen, die fur qualitativ hoch- 
wertiges Prufen erforderlich sind. 

1.1. Gesamtpriifungsprogramm 

Ein Gesamtprufungsprogramm, in dem Anzahl, Umfang, 
Inhalt, zeitlicher Ablaut und Format der im Medizinstudi- 
um durchzufuhrenden summativen wie formativen Ein- 
zelprufungen aufeinander abgestimmt sind, liegt alien 
Studierenden und Lehrenden vor. 
Die an der Fakultat bzw. im Studiengang Medizin/Zahn- 
medizin/Tiermedizin verwendbaren Prufungsformen 
sollten in den entsprechenden formalen Regelungen 
(Studienordnung, Prufungsordnung oder in geeigneten 
Ausfuhrungsbestimmungen) aufgefuhrt und hinsichtlich 
ihrer Durchfuhrung und Bewertung festgelegtsein. Dabei 
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istSorge zu tragen, dass die Bestimmungen hinreichend 
Raum fur die Etablierung innovativer Prufungsformen 
bieten. 

Es ist darauf zu achten, dass die Prufungsinhalte mit 
adaquaten Prufungsformen, die sowohl Methoden zur 
Leistungserfassung theoretischer Kenntnisse wie auch 
praktischer Fertigkeiten beinhalten, abgepruft werden 
(Jriangulation": Leistungserfassung auf Basis unter- 
schiedlicher Quellen, zu unterschiedlichen Zeitpunkten, 
unter unterschiedlichen Bedingungen, durch verschiedene 
Personen und mit unterschiedlichen Methoden [16], [17]). 
Z. B. konnen theoretische Kenntnisse mit schriftlichen 
Klausuren, praktische Prufungsinhalte mit objektiv- 
strukturierten praktischen/klinischen Prufungen (OSPE/ 
OSCE) angemessen erfasst werden. Die Prufungsformen 
sollten den jeweiligen Qualitatsanforderungen an Objek- 
tivitat, Reliabilitat (Zuverlassigkeit) und Validitat (Gultig- 
keit) genugen. Basiert die Leistungsbewertung auf ver- 
schiedenen Prufungsteilen, so beziehtsich die Anforde- 
rungan die Messzuverlassigkeitauf die Gesamtprufung, 
nicht notwendigerweise auf die einzelnen Teile (siehe 
auch Erlauterungzu 2.6). 

Urn die Studierenden bestmoglich auf ihre spatere arztli- 
che Berufsausubung vorzubereiten, sind in die curricula- 
ren Lernziele Kompetenzen aufzunehmen, die wesentlich 
uber medizinisches Expertenwissen und fachlichen Fer- 
tigkeiten hinausgehen. Damit ist es aber auch erforder- 
lich, geeignete Prufungsformen und Strukturen zu entwi- 
ckeln, die eine angemessene, zuverlassige und praktika- 
ble Leistungserfassung dieser Kompetenzen ermoglichen. 
Dies bedingt den Einsatz neuer Prufungsformen, insbe- 
sondere arbeitsplatzbasierter Prufungsformen, wie z. B. 
DOPS, Encounter-Cards Oder 360 "-Assessment, zur Er- 
fassung von kommunikativen Kompetenzen, professio- 
nellem Handeln, Managementfahigkeiten. Besondere 
Beachtung erfordert die Qualitatssicherung dieser Pru- 
fungsformate, so ist etwa im Vorfeld eine ausreichende 
Schulungder Prufersicherzustellen oder bei der Analyse 
der Prufungsergebnisse zur Kontrolle der bei arbeitsplatz- 
basierten Leistungserfassungen geringeren Standardisier- 
barkeit der Prufungssituation der Einsatz angemessener 
Auswerteverfahren (z. B. Generalisierbarkeitstheorie) 
vorzusehen. 

Die Leistungsmessungbei nichtfachspezifischen Lernzie- 
len ist logistisch oft nicht im Rahmen der einzelnen 
Fachprufungen durchzufuhren. Hier sind andere Prufungs- 
strukturen denkbar, bei denen Prufungsbestandteile 
einzelner Prufungen fachubergreifend und analog zu ei- 
nem Portfolio zusammengestellt und beurteilt werden. 
So konnten z. B. die Kommunikationsstationen in OSCEs 
verschiedener Facher fur eine Bewertungder Kompetenz 
als „Kommunikator" zusammengefasst werden. Dieses 
Portfolio konnteauch die Erfassungvon kritischen Ereig- 
nissen (etwa zur Beurteilung professionellen Verhaltens) 
umfassen. 

1. 2. Lernzielkatalog 

Furjede in derStudienordnungdefinierte Unterrichtsein- 
heit (z. B. Fach, Modul, Kurs, Seminar, Querschnittbe- 



reich) im vorklinischen und klinischen Abschnitt des 
Studiums liegt ein vollstandiger schriftlicher Lernzielka- 
talog vor. 

Aus der Gesamtheitder Lernzielkataloge der Unterrichts- 
einheiten muss entnommen werden konnen, welche 
Lernziele bei Vorliegen eines Gesamtlernzielkatalogs in 
welchen Veranstaltungen vermittelt werden. 

1.3. Information der Studierenden bzgl. Lernzielkatalog 

Die Studierenden werden vorjeder Unterrichtseinheit/je- 
dem Modul uber die spezifischen Lern- und Prufungsziele 
zeitgerecht informiert. 

1.4. Adaquate Priifungsformate 

Die in den Lernzielen formulierten Kenntnisse, Fahigkei- 
ten und Haltungen werden mit adaquaten Prufungsfor- 
maten gepruft. Insbesondere sind Verfahren einzusetzen, 
die geeignet sind, arztliche Entscheidungs- und Hand- 
lungskompetenzen sowie Fertigkeiten der arztlichen Ge- 
sprachsfuhrung zu erfassen (s. 1.1). 
Neben schriftlichen Prufungsformaten (als Multiple- 
Choice-Prufung oder mit offenen Fragen), die vornehmlich 
der Prufung theoretischen Wissens dienen, sind zur 
Leistungserfassung praktischer Fertigkeiten in medizini- 
schen Studiengangen OSCEs etabliert. Zur Erfassung 
anderer Kompetenzbereiche arztlichen Handelns sind 
daruber hinaus weitere Prufungsformen erforderlich, mit 
denen zuverlassige arbeitsplatzbezogene Leistungserfas- 
sungen moglich sind. Hierzu gehoren z. B. miniCEX, 360°- 
Assessments, Encounter-Cards, Direct Observation of 
Practical Skills (DOPS). 

1.5. Schriftliche Regelungen fur Prufungsvorbereitung 
und Prufungsablauf 

Fur die nachfolgend aufgefuhrten Bereiche sollten 
schriftliche Regelungen vorhanden sein. 

1. Teilnahmevoraussetzungen 

2. Festsetzung von Prufungsterminen (incl. Wiederho- 
lungstermine) und formaler Prufungsablauf. 

Bei jeder Prufung sollten klare Regularien fur den 
formalen Prufungsablauf standardmaBigeingehalten 
werden. Diese Regularien sollten schriftlich nieder- 
gelegt sein und folgende Aspekte enthalten: 

- Form und Terminvorgaben fur Prufungsankundi- 
gung 

- Form und Terminvorgaben fur die Anmeldung der 
Studierenden zur Prufung, ggf. automatische Anmel- 
dung zur Prufung durch Einteilung zum Modul 

- Zahl und Qualifikation der Prufer (z. B. Facharzt, 
Habilitation usw.) 

- Dauer der Prufung 

- Prufungseinfuhrungen (z. B. eigener Termin zur 
Einweisungfur computerbasierte Prufungen) 

- Ansagen zu Beginn der Prufung 

- Bei der Prufung erlaubte Hilfsmittel 

- Mitnahmevon Prufungsunterlagen 

- Umgang bei verspatetem Erscheinen zur Prufung 

- Rucktritt und Versaumnis von Prufungen 
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- Vorgehen bei Tauschungsversuchen 

- Regelungen zum Prufungsabbruch 

3. Regelungen zu den im Studiengang einsetzbaren 
Prufungsformen (s. 1.1) 

4. Festlegung raumlicher und zeitlicher Voraussetzun- 
gen und Bedingungen fur die Prufungsdurchfuhrung 
(s. 3.3) 

5. Bewertungsskalen, Bestehensgrenzen, Anwendung 
einer Gleitklausel 3 (s. 2.5, 2.8) 

6. Bewertung bei fehlerhaft gestellten Aufgaben (s. 
5.2) 

7. Gewichtung von Teilprufungen (s. 3.1) 

8. Kompensationsmoglichkeiten und Nachteilsaus- 
gleich bei Prufungen (s. 1.6) 

9. Teilnahmebedingungen und Verfahren fur Nach- 
und Wiederholungsprufungen (s. 1.6) 

10. Bekanntmachung und Einsichtnahme in Prufungser- 
gebnisse (s. 6.2) 

11. Regelungen bei Einspruchen gegen Bewertung und 
Prufungsaufgaben (s. 5.2, 6.3) 

12. Umgang mit Verletzungen der Durchfuhrungsbedin- 
gungen und auBergewdhnlichen Storungen der 
Prufungsdurchfuhrung sow/'e Regelungen fur da- 
durch erforderliche Prufungswiederholungen (s. 4.3) 

13. Veroffentlichung von Aufgaben (s. 6.5) 

14. Dokumentation der Prufung und der Prufungsergeb- 
n/'sse (s. 5.5) 

1.6. Kompensation von Priifungsleistungen, Nach- und 
Wiederholungsprufungen 

1. Konnen Leistungsnachweise Oder Teile von Leistungs- 
nachweisen seitens Studierender nicht odernur unter 
nichtzumutbaren Bedingungen erbrachtwerden, die 
in der Art und Form der Prufungsdurchfuhrung begrun- 
det sind, sollte grundsatzlich geklart sein, unter wel- 
chen Bedingungen Prufungsleistungen kompensiert 
werden konnen. 

Dies betrifftz. B. Studierende mit korperlichen Beein- 
trachtigungen, bei denen u. U. der Behindertenbeauf- 
tragte hinzugezogen werden sollte, oder Studierende 
mit eingeschrankten Kenntnissen der deutschen 
Sprache, die nicht regular im Studiengang eingeschrie- 
ben sind (Studierende in internationalen Studienaus- 
tauschprogrammen, z. B. Erasmus). 

2. In den maBgeblichen rechtlichen Bestimmungen 
(Studienordnung, Prufungsordnung) sind die Bedin- 
gungen fur die Durchfuhrung und Teilnahme an Nach- 
und Wiederholungsprufungen festzulegen. Ebenfalls 
geregelt sein muss, ob und inwieweit notenverbes- 
sernde Prufungen durchgefuhrt werden. 

Das Prufungsformatfur Wiederholungs-und Nachpru- 
fungen sollte mit dem Format der Erstprufung uber- 
einstimmen, z. B. sollte keine schriftliche oder 
mundliche Nachprufung bei nicht bestandenem OSCE 
durchgefuhrt werden. Ebenfalls sollte bei Nichtbeste- 
hen einer schriftlichen Prufung keine mundliche 
Nachprufung erfolgen 4 . 

Bei eigenstandigen Wiederholungsprufungen (also 
Prufungen, in denen mehrheitlich Kandidaten gepruft 



werden, die mindestens einmal nicht bestanden ha- 
ben), ist u. U. eine Modifikation der Gleitklausel zu 
empfehlen (s. auch 2.5). 

1.7. Priifungsverantwortliche 

1. In jedem Fach ist mindestens ein Prufungsverantwort- 
licher nebst Stellvertreter benannt, dessen Verant- 
wortlichkeiten klar definiertsind. (Verantwortungsbe- 
reiche: z. B. Blueprint, Fragenerstellung, Durchfuh- 
rung, Korrektur, Pra- und Postreview, Auswertung, 
Ruckmeldung an Curriculumsentwickler). 

2. Die Prufungsverantwortlichen haben an Weiterbil- 
dungsmaEnahmen zum Thema Prufungen teilgenom- 
men. 

Jeder Prufungsverantwortliche fur einen Lehrbereich 
(Fach, Modul, Block etc.) sollte eine zertifizierte Wei- 
terbildungzum Thema Prufungen aufweisen konnen. 

2. Prufungskonzeption und 
bewertung 

Die folgenden Empfehlungen beziehen sich auf die Vor- 
bereitung konkreter Prufungen. Sie betreffen die curricu- 
lare Anbindungder Prufungsinhalte und MaSnahmen zur 
Qualitatssicherung von Aufgaben und Gesamtprufung 
(Reliabilitat und Validitat) sowie die okonomische und fur 
die Studierenden transparente Durchfuhrung. 

2.1. Abstimmung der Prufungen mit Gesamtprufungs- 
programm 

Die Einzelprufungen sind mit dem Gesamtprufungsplan 
des Studiengangs abgestimmt. Diese Abstimmung betrifft 
sowohl summative als auch formative Leistungsruckmel- 
dungen. 

2.2. Validitat 

Jeder Einzelprufung liegt ein schriftliches Gesamtkonzept 
(..Blueprint") zugrunde, das die fachspezifischen Prufungs- 
inhalte reprasentativ abbildet. 

Der Blueprint dient der Sicherung der inhaltlichen Validitat 
der Prufung. Diese wird gewahrleistet 

1. durch die Reprasentativitat der Aufgaben fur den ab- 
zuprufenden Bereich und 

2. dieVermeidungvonfurdiesen irrelevanten Prufungs- 
inhalten („konstuktirrelevante Varianz"). 

Die Validitat ist das Kriterium fur die Testgute. Sie ist ein 
MaS dafur, ob die bei der Messung erzeugten Daten wie 
beabsichtigt die zu messende GrdSe, also die Kenntnisse 
oder Fertigkeiten in dem durch die Prufung abzudecken- 
den Fachgebiet o. a., reprasentieren: Misst der Test das 
Merkmal, das er messen soil 5 ? 

Nach der Auswertung der Prufungen konnen weitere 
Quellen der Validitat untersucht werden: 

• stellen sich die Testergebnisse plausibel dar? 

• Gibt es eine hohe Korrelation zwischen dem Test und 
anderen Tests, die das gleiche Konstrukt messen sol- 
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len (z. B. MC-Klausur Innere Medizin und Anteil Innere 
Medizin in Staatsprufungen)? 

2.3. Einbindung von Fachvertretern 

Bei der Zusammenstellung der Prufungen sind Vertreter 
aus alien beteiligten Lehrgebieten beteiligt. 

2.4. Begutachtung der Priifungsaufgaben (Pra-Review) 
und Prufung der inhaltlichen Validitat 

1. Vor der Durchfuhrung einer Prufung findet eine 
standardisierte, inhaltliche und formate Bewertung 
(Pra-Review) der Prufungsaufgaben statt. 

Bei Prufungsformaten, in denen nur eingeschrankte 
Moglichkeiten zu ihrer Standardisierung bestehen (z. 
B. arbeitsplatzbasierte Prufungen), ist festzulegen, 
wie unterschiedliche Rahmenbedingungen und 
Schwierigkeitsgrade berucksichtigt werden (z. B. de- 
tailliertes Standard-Setting). 

Bei der Erstellung von Prufungen sollten im Hinblick 
auf die Validitat die folgenden Punkte in einer Gesamt- 
sicht beachtet werden: 

- Ist jede einzelne Aufgabe qualitativ hochwertig? 
Hier ist insbesondere wichtig, dass nur diezu messen- 
de Fertigkeit/Fahigkeit (z. B. Wissen in einem bestimm- 
ten Fachgebiet) zur richtigen Beantwortungfuhrt und 
nichtandere Fahigkeiten (z. B. Sprachkenntnisse) zur 
Losung der Aufgabe erforderlich sind. 

- Sind die Inhalte allgemeingultig/evidenzbasiert und 
z.B. keine lokale Lehrmeinung? 

- Decktsich der Inhalt der Prufungmitder Lehre/den 
Lernzielen? 

- Handeltessich um Wissen, das beimgegenwartigen 
Ausbildungsstand erwartet werden kann und nicht 
z.B. um Inhalte, die in einen spateren Abschnitt des 
Studiums oder der medizinischen Weiterbildung ge- 
horen? 

- Ist der Inhalt des zu prufenden Stoffgebiets mit 
seinen Subgebieten verhaltnismaSig angemessen 
und umfassend im Test vertreten? Um dies zu gewahr- 
leisten mussen angemessene Methoden der Fragen- 
zusammenstellung standardmaSig gewahlt werden 
(s. 2.2, „Blueprint"). 

- Wurden die Prufungsaufgaben sowie die ganze 
Prufung einem sorgfaltigen Review-Prozess unterzo- 
gen? 

- Ist das theoretische Rahmenwerk argumentativ 
nachvollziehbar? 

- Erscheint der Test den Pruflingen plausibel? (Akzep- 
tanz) 

2. Am Review nehmen mindestens zwei Fachvertreter 
und ein Vertreter eines anderen Faches teil. 

3. Das Ergebnis der Begutachtung muss dokumentiert 
werden. 

2.5. Bestehensgrenzen 

1. Vor der Durchfuhrung einer Prufung wird die Beste- 
hensgrenze durch ein interdisziplinares Expertengre- 
miums nach inhaltlichen Kriterien (z. B. mittels eines 
Standard-Setting-Verfahrens) oder anhand eines for- 



malen Kriteriums (z. B. 60%-Regel) schriftlich festge- 
legt. 

Bestehensgrenzen sollten moglichst anhand inhaltli- 
cher Kriterien entsprechend einer kriteriumsorientier- 
ten Leistungsmessung festgesetzt werden (vgl. z. B. 
Verfahren des Standardsetzens beim OSCE). Bei MC- 
Fragen sollten mindestens formale Kriterien (z. B. 
60%-Regel) eingesetzt werden. 

2. Eine Regelung zur Anwendung einer Gleitklausel ist 
schriftlich festgelegt. 

Eine Gleitklauselregelung ist i. A. bei Prufungen mit 
Multiple-Choice-Aufgaben erforderlich. Im Studiengang 
sollte durch eine einheitliche Regelung klargestellt 
sein, bei welchen Prufungsformen und in welcher 
Weise eine Gleitklausel einheitlich zur Anwendung 
kommt. Es ist festzulegen, wie Prufungen mitgemisch- 
ten Formaten (z.B. Multiple-Choice und offene Fragen) 
zu behandeln sind. 

Erganzend zu einer kriteriumsorientierten Bestehens- 
grenze sollten auch bei anderen Prufungsformen 
entsprechende Regelungen zur Kompensation unan- 
gemessen schwieriger Prufungen getroffen werden, 
die den Studierenden rechtzeitig bekannt gegeben 
werden mussen. 

Wir empfehlen fur Prufungen mit MC-Fragen zur Ver- 
einfachung eine modifizierte Gleitklausel, die die 
durchschnittliche Prufungsleistung aller Teilnehmer, 
die zum ersten Mai in direktem Anschluss an den 
Kursan der Prufungteilnehmen, (ohne Beschrankung 
auf Studierende in derRegelstudienzeito. A.) beruck- 
sichtigt. Fur Nachhol- und Wiederholungsprufungen 
mit einem erheblichen Anteil an Teilnehmern, die die 
Prufung nicht zum ersten Mai ablegen, sind geeignete 
Regelungen zu treffen. 

3. Rundungen der Bestehens- und Notengrenzen sind 
verbindlich festzulegen. 

Ergibtsich z. B. bei 99 Aufgaben und einer Bestehens- 
grenze von 60% der maximalen Punktzahl die Beste- 
hensgrenze von 59,4 Punkten, so wird empfohlen, 
diese auf 60 Punkte aufzurunden, falls bei den Pru- 
fungsaufgaben nur ganze Punkte vergeben werden. 
Werden auch halbe Punkte vergeben, so ware die 
Bestehensgrenze entsprechend auf 59,5 Punkte zu 
setzen (nach der deutschen AAppO muss die Mindest- 
prozentzahl zum Bestehen erreicht oder uberschritten 
sein, d. h. esfinden in keinem Fall Abrundungen statt). 

2.6. Reliabilitat der Prufung 

Bei summativen Prufungen ist eine Reliabilitat von min- 
destens 0,8 fur den Leistungsnachweis zu erwarten. 
Soweit methodisch moglich, wird empfohlen, Leistungs- 
nachweise eines Fachsauf Basis mehrererTeilprufungen 
zu erstellen (s. Erlauterungzu 1.1). In diesem Fall ist das 
Kriterium der Mindestreliabilitat von 0,8 auf die Gesamt- 
bewertunganzuwenden, nicht notwendigerweise auf die 
einzelnen Teil prufungen. Ein Beispiel hierfur ware, wenn 
in einem Fach sowohl eine schriftliche Prufung fur das 
theoretische Wissen wie auch eine OSCE-Prufungfur die 
praktischen Fertigkeiten abzulegen sind. Hier kann sowohl 
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bei Klausur wie bei OSCE die Reliabilitat der beiden ein- 
zelnen Prufungen jeweils 0,8 unterschreiten, die Reliabi- 
litat der zusammengesetzten Prufung kann aber merklich 
hoher sein. Zur Bestimmung der Reliabilitat zusammen- 
gesetzter Leistungsnachweise sei auf die einschlagige 
Literatur verwiesen (z. B. [18]). 
Dabei istzu beachten, dass Teilprufungen, die nichtdurch 
andere Prufungsleistungen kompensiertwerden konnen, 
eine hinreichende Messzuverlassigkeit der Entscheidung 
bestanden/nicht bestanden aufweisen, um zu verhindern, 
dass einem Studierenden auf Grund einer einzelnen we- 
nig zuverlassigen Teilprufungder Leistungsschein verwei- 
gertwird. Beispiele hierfursind etwa „K.O.-Stationen" in 
einem OSCE oder Teilprufungen bei facherubergreifenden 
Leistungsnachweisen, diejedefursich bestanden werden 
mussen. 

Um in einzelnen Prufungen eine Reliabilitat von mindes- 
tens 0,8 zu erreichen, sind in der Regel bei MC-Klausuren 
wenigstens 40 qualitativ hochwertige Fragen erforderlich, 
bei OSCE wenigstens 12 Stationen. Diese Angaben kon- 
nen nur als grobe Anhaltspunkte dienen, in Abhangigkeit 
von Prufungsziel, Aufgaben qua I itat und zu prufender 
Studierendenkohorte sind erhebliche Schwankungsbrei- 
ten moglich, weshalbzur Abschatzungderzu erwartenden 
Reliabilitat die Kennwerte entsprechender fruherer Pru- 
fungen des Faches herangezogen werden sollten. 
Insbesondere „kleine" Facher stehen vor dem Problem, 
dass auf Grund des Prufungsumfangs nur schwer eine 
Reliabilitat von wenigstens 0,8 erreicht werden kann. Eine 
Losung im Bereich der Humanmedizin in Deutschland 
bieten diesog. facherubergreifenden Leistungsnachwei- 
se", bei denen mehrere Facher, die ihre Unterrichtsein- 
heiten in zeitlicher Nahe durchfuhren, eine gemeinsame 
Prufung durchfuhren und eine Gesamtnote bilden konnen. 
Sind keine facherubergreifenden Leistungsnachweise 
moglich, sollte zumindest durch eine intensive Qualitats- 
sicherung eine moglichst hohe Validitat durch Reprasen- 
tativitat der Aufgaben fur den Lehrstoff und der Vermei- 
dung von Aufgaben, die lernzielfremde Kenntnisse Oder 
Fertigkeiten prufen (konstruktirrelevante Varianz), gesi- 
chert werden. 

2.7. Ressourcenaufwand 

Die geplante Prufung ist ressourcensparend konzipiert. 
Hierunter sind Moglichkeiten einer Einsparung von Res- 
sourcen bei der Konzeption, Durchfuhrung und Auswer- 
tung der Prufungen zu verstehen. Dazu gehoren z. B. 
Einlesen der Antwortbogen durch Belegleser, adaquate 
Anzahl der Aufsichtspersonen, Verwendung eines fakul- 
tats-/studiengangsubergreifenden Prufungspools, Einsatz 
computerbasierter Durchfuhrung, standardisierteteststa- 
tistische Auswertung (z. B. zentral in der Fakultat), Ver- 
wendung der Mindestanzahl von Prufern (z. B. beim OSCE 
einer pro Station bei zentraler Aufsicht ausreichend), 
Wahl ressourcensparender Prufungsformate und Aufga- 
benformate (offene Fragen auf das Notwendige beschran- 
ken). 



2.8. Bewertung der Aufgaben 

1. Die zu verwendenden Bewertungsskalen (Noten, 
Punkte) von Prufungen sollten fur den Studiengang 
einheitlich und verbindlich sein. 

2. Die richtigen Antworten, der Erwartungshorizont, die 
Korrekturrichtlinien und Bewertungsmodus sind vor 
der Durchfuhrung der Prufung schriftlich festgelegt. 
Die richtigen Antworten und der Erwartungshorizont 
liegen dem Prufer schriftlich vor. Die schriftliche Kor- 
rekturanleitung fur eine Klausur ist eindeutig (z. B. 
zurVergabe halber Punkte oderzur Korrekturoffener 
Fragen). Empfehlung: Jeweils derselbe Prufer sollte 
die Antworten aller Studenten einer offenen Frage 
korrigieren. 

Der Bewertungsmodus bei einem OSCE ist eindeutig 
festgelegt. Furjede OSCE-Station/-aufgabe ist eindeu- 
tig festgelegt, wie viele Punkte anhand einer Checklis- 
te oder auf Basis einer globalen Beurteilung („Global 
Rating") der Fertigke it/Fa h igkeit vergeben werden. 
Fur mundliche Prufungen gilt Entsprechendes. 

3. Die Anzahl der Punkte fur jede einzelne Frage/ Auf ga- 
be ist vor Prufungsbeginn festgelegt. 

Bei schriftlichen Prufungen ist bei nicht einheitlicher 
Gewichtung der Aufgaben die jeweils zu erzielende 
Punktzahl in der Klausur anzugeben. Es istzu beach- 
ten, dass bei MC-Aufgaben, die nicht vom Einfachaus- 
wahltypsind (z.B. „Mehrfach richtig/falsch"), erbrach- 
tes Teilwissen ebenfalls angemessen zu berucksich- 
tigen ist. 

2.9. Bewertung von Teilpriifungen 

1. Setzen sich die im Zeugnis aufzufuhrenden Noten 
aus mehreren Teilprufungen zusammen, sollten die 
Bewertungen der Teilprufungen auf einer hinreichend 
differenzierten Bewertungsskala vorgenommen wer- 
den. 

Notenskalen, wie etwa das deutsche System der 
Vergabe von 4 Notenstufen bei bestandener Prufung, 
bilden die Prufungsleistungen nur grab ab. Werden 
wenigabgestufte Noten von Teilprufungen zur Bildung 
einer Gesamtnote zusammengefasst, konnen durch 
die Mittelung Verzerrungen der Beurteilung der Ge- 
samtleistung entstehen. 

2. Die Rundung der Noten sollte eindeutig festgelegt 
werden. 

Rundungen auf ganze Zahlen, wie sie bei der Bildung 
der durch die deutsche AAppO fur das Zeugnis gefor- 
derten Notenstufen 1, 2, 3 und 4 notwendig sind, 
sollten immer in Richtung der nachstliegenden ganzen 
Zahl durchgefuhrt werden. Bei gleichem Abstand 
(Dezimalstellen 0,500) istzu Gunsten der Studieren- 
den zu runden, so ist etwa 1,500 auf die ganze Note 
1, hingegen ist 1,501 auf die ganze Note 2 zu runden. 
Es wird empfohlen, Teilbewertungen, die zu einer 
Gesamtnotenbildung verwendet werden, auf einer 
Skala mit wenigstens drei Kommastellen durchzufuh- 
ren. Die Verwendung von drei Kommastellen ist im 
Normalfall hinreichend genau, um Verzerrungen durch 
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iterierte Rundungen zu vermeiden (wie etwa, dass im 
deutschen System aus 2,54 durch die Rundung auf 
eine Stelle 2,5 und durch eine nachfolgende Rundung 
in Richtungder besseren Note eine 2 wird). 
Die Bewertungsskala sollte eine geforderte Gleichab- 
standigkeit von Notengrenzen berucksichtigen. Istz. 
B. bei schriftliche Prufungen vorgegeben, dass ab 
60% bis zu 70% der erreichten Punktzahl die Note 4, 
ab 70% bis zu 80% die Note 3, ab 80% bis 90% die 
Note 2 und ab 90% eine 1 zu vergeben ist, so musste 
eine notenaquivalente Dezimalskala von 0,5 bis 4,5 
reichen. Damit wird das Intervall von 80-90% der er- 
reichten Punktzahl (Note 2) auf die Noten von 2,5 bis 
1,5 und 90-100% auf ein gleich groSes Intervall von 
1,5 bis 0.5 abgebildet. Nur so ist eine einfache lineare 
Umrechnungder Punktwerte in Dezimalnoten moglich. 

3. Organisatorische Vorbereitungen 
zur Prufungsdurchfuhrung 

Neben der inhaltlichen Vorbereitung der Prufung bedarf 
es verschiedener organisatorischer und logistischer Vor- 
arbeiten, um einen formal korrekten Ablauf der Prufung 
zu gewahrleisten. 

3.1. Bekanntgabe von Prufungsterminen und -formate 

Die Prufungstermine und -formate werden den Studieren- 
den zu Beginn einer Unterrichtseinheit bekanntgegeben. 
Setztsich die Gesamtnote eines Fachs Oder Querschnitts- 
bereichs aus mehreren Teilprufungen zusammen, so sind 
die Gewichtungen bekannt zu geben. Bei Anderungen 
der Zusammensetzung der Gesamtnote oder Gewichtung 
der Teilprufungen sind Ware Ubergangsregelungen fur 
Studierende zu formulieren, die Prufungen wiederholen 
mussen. 

3.2. Prufungsanmeldung 

Fur jede Prufung ist eine schriftliche oder Online-Anmel- 
dung durch die Studierenden erforderlich. Die Anmeldung 
zu Lehrveranstaltung und Prufung kann gemeinsam er- 
folgen. Unter Umstanden kann bei curricular feststehen- 
den Prufungen eine eigenstandige Anmeldung nicht er- 
forderlich sein. 

Es sollte geregelt sein, ob Studierende bei Nichtbestehen 
einer Prufung fur die nachstmogliche Wiederholungauto- 
matisch angemeldet sind oder ob eine gesonderte Anmel- 
dung erforderlich ist 

Summative Prufungen sind als Abschluss einer Unter- 
richtseinheit zu sehen und sollten sich direkt auf das 
vorangegangene Curriculum beziehen. Deshalb ist es 
empfehlenswert, die Prufung(en) oder letzte Teilprufung 
verpflichtend fur alle Studierenden zeitnah nach Ab- 
schluss der Unterrichtseinheit durchzufuhren. 

3.3. Raumlichkeiten und Personal fur Prufungen 

1. Zur Durchfuhrung der Prufung ist gewahrleistet, dass 
ausreichend Raume zur Verfugungstehen und diese 



fur alle Kandidaten vergleichbare Bedingungen bie- 
ten. 

1. Zur Durchfuhrung der Prufung steht ausreichend ge- 
schultes Personal zur Verfugung (Prufer, Aufsichtsper- 
sonen, Korrektoren zur Bewertung offener Fragen 
usw.). 

3.4. Schulungvon Priifern und Riickmeldungan Prufer 

1. Die Prufer und Korrektoren sind hinsichtlich einheitli- 
cher Bewertungskriterien vor der Prufung geschult. 
Es soil ein gemeinsames Training derjenigen, die die 
Pruflinge bewerten, zur Erhdhung der Interrater-Relia- 
bilitat durchgefuhrt werden. Dies istinsbesondere bei 
parallelen Prufungsparcours eines OSCE, bei mundli- 
chen Prufungen oder bei schriftlichen Prufungen mit 
offenen Fragen notwendig. 

Fur Prufungen, in denen der Prufer mit dem Prufling 
direkt in Kontakttritt, sind insbesondere Schulungen 
mit videographierten Prufungen sinnvoll. 

2. Prufer sind hinsichtlich Ruckmeldung und Erlauterung 
der abgepruften Leistungen und ihrer Bewertung an 
die Studierenden (..Feedback") geschult. Dies gilt 
insbesondere bei alien formativen Prufungen. 

Die SchulungsmaSnahmen sind an die speziellen Er- 
fordernisse des Prufungsformats anzupassen, neben 
einer eingehenderen Erstschulungsind Auffrischungs- 
schulungen durchzufuhren. Die Wirksamkeit der 
SchulungsmaSnahmen istzu uberprufen (z. B. durch 
standardisierte Studierende). 

3. Prufer erhalten Ruckmeldung uber ihre Prufungsleis- 
tung. 

Bei Prufungen, in denen Prufereinflusse bei der Be- 
wertung zu berucksichtigen sind, erfolgt eine Ruck- 
meldungan die Prufer (s. 5.1). So istz. B. bei mundli- 
chen oder mundlich-praktischen Prufungen eine 
Ruckmeldung hinsichtlich Strenge oder der Ausnut- 
zung der Bewertungsskalen zu geben. U. U. ist vor 
dem Einsatzbei der nachsten Prufung eine Nachschu- 
lungvon Prufern durchzufuhren. 

4. Durchfuhrung der Prufung 

4.1. Einhaltungformaler Kriterien 

Bei der Durchfuhrung der Prufung werden die schriftlich 
niedergelegten formalen Kriterien eingehalten und doku- 
mentiert (z. B. mit Hilfe einer Checkliste zum formalen 
Prufungsablauf). 

4.2. Vollstandigkeit der Priifungsunterlagen 

Die Vollstandigkeit der Prufungsunterlagen und des Pru- 
fungsmaterials wird zu Beginn der Prufung durch die 
Studierenden oder die Prufungsaufsicht kontrolliert. 
Eine eindeutige Zuordnung sowohl des Aufgaben- als 
auch desAntwortblattes zujedem Studierenden und eine 
kontrollierte Abgabe ist fur einen vollstandigen Ruckfluss 
aller Aufgabenblatter empfehlenswert. 
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4.3. Protokoll des Priifungsverlaufs 

Der Verlaufder Prufung und dabei auftretende Probleme 
werden protokolliert (z. B. Nennungvon Prufungsverant- 
wortlichen und -durchfuhrenden, Aufsichtspersonen, 
spezielle Vorkommnisse, Tauschungsmandver, Compu- 
terausfall bei computerbasierten Prufungen). 
Beispielefur die Verletzungvon Durchfuhrungsbedingun- 
gen sind: 

• Larmbeeintrachtigungen durch BaumaSnahmen 
wahrend einer Klausur. 

• Ungeeignete Prufungsraume 

• Mangelhafte Prufungsmaterialien wie schlechte Kopien 
der Prufungsaufgaben, fehlerhafte Fragennummerie- 
rungen. 

• Ausfall von Computern bei computerbasierten Prufun- 
gen 

Studierende mussen eine Verletzungvon Durchfuhrungs- 
bedingungen unverzuglich wahrend Oder nach der Pru- 
fung geltend machen. Es ist nicht zulassig, zunachst das 
Ergebnis der Prufung abzuwarten und sich im Falle des 
Nichtbestehensauf die Verletzungder Durchfuhrungsbe- 
stimmungen zu berufen. 

Bei erheblichen Beeintrachtigungen der Prufungsdurch- 
fuhrungwird empfohlen, eine Wiederholungsprufung fur 
alle Prufungsteilnehmer anzubieten und das bessere 
Prufungsergebnis zu werten. 

Geregelt werden sollte auch die Entscheidung uber Std- 
rungen der Prufung durch Prufungsteilnehmer und deren 
moglichen Ausschluss, ebenso der Abbruch einer Prufung 
(z. B. wegen akuter Erkrankung) und die entsprechende 
Dokumentation durch den Prufungsverantwortlichen. 

5. Auswertung und Dokumentation 

Eine sorgfaltige Auswertung der Prufung mit Dokumenta- 
tion einschlieSlich der statistischen Analyse istzur inhalt- 
lichen und insbesondere rechtlichen Absicherung erfor- 
derlich. Beisummativen Prufungen entstehen Studieren- 
den bei Fehlern u. U. erhebliche Nachteile, die von 
Mehrarbeit und Verlangerung der Studiendauer bei erfor- 
derlichen Prufungswiederholungen, der Nichtgewahrung 
von Stipendienleistungen bei ungerechtfertigter 
schlechter Bewertung bis hin zum Studienabbruch reichen 
konnen. Statistische Analyse und Dokumentation sind 
daruber hinaus eine wesentliche Grundlage fur die Pru- 
fungsnachbereitung(s. 7.1). 

5.1. Statistische Analyse 

Fur alle Prufungsformate ist eine adaquate statistische 
Analyse der Prufungsergebnisse durchzufuhren, die ins- 
besondere Aufgabenschwierigkeit und -trennscharfe 
umfasst (Primarauswertung). 

Bei Prufungsformaten, in denen neben den Aufgaben 
weitere systematische Einflussfaktoren wie etwa Prufe- 
reinflusse existieren (z. B. OSCE), sind diese bei der 
Auswertung zu berucksichtigen (z. B. mit Verfahren der 
Generalisierbarkeitstheorie). Fur Multiple-Choice-Aufga- 



ben ist zusatzlich eine Distraktorenanalyse durchzufuh- 
ren. 

Ergeben sich Hinweise auf fehlerhafte oder unklare Auf- 
gabenstellungen, so ist die Aufgabe formal und inhaltlich 
nachzukontrollieren. 

5.2. Korrekturen der Auswertung 

Nacri einer evtl. notwendigen Korrektur der Aufgaben- 
oder Prufungsbewertung wird eine Endauswertung der 
Prufung (einschl. einer weiteren teststatistischen Analyse) 
durchgefuhrt. 

Die nochmalige Uberprufung der Aufgabenstellungen 
nach der Prufungsdurchfuhrung dient der juristischen 
Absicherung/Rekursfestigkeit der Leistungsbewertungen. 
Fur die Auswertung von Prufungen wird deshalb ein 
zweistufiges Vorgehen empfohlen: Im ersten Schrittwird 
eine teststatistische Auswertung der Prufung vorgenom- 
men, nach der kontrolliert wird, ob einzelne Aufgaben 
hinsichtlich Schwierigkeit oder Trennscharfe „auffallig" 
sind. Hier sind erfahrungsgemaS insbesondere sehr 
schwere Aufgaben (Schwierigkeiten unter 0,4) oder Auf- 
gaben mitsehrniedrigerTrennscharfe(unterO,2) hinsicht- 
lich ihrer inhaltlichen Korrektheit von den Prufungsverant- 
wortlichen zu uberprufen. 

Erweisen sich dabei Aufgaben als fehlerhaft, ist eine 
Neuauswertung der Prufung erforderlich. Erst im An- 
schluss an diese Auswertung sollten die Prufungsergeb- 
nisse bekanntgegeben werden. Eine nochmalige Auswer- 
tung ist notwendig, wenn z. B. auf Grund begrundeter 
studentischer Einwande weitere Korrekturen an der Auf- 
gabenbewertung vorgenommen werden mussen (s. u). 
Auch bei automatischer Auswertung wie z. B. bei compu- 
terbasierten Prufungen ist darauf zu achten, dass alle 
MaBnahmen zur Qualitatssicherungvor der Bekanntgabe 
der Ergebnisse durchlaufen wurden. Der Prufungsverant- 
wortliche muss die Prufungsergebnisse formal freigeben. 
Bei der Korrekturfehlerhaftgestellten Aufgaben istsicher- 
zustellen, dass den Prufungsteilnehmern hierdurch keine 
Nachteile entstehen. So durfen z. B. Multiple-Choice- 
Aufgaben des Typs A („Eins aus Funf") nicht einfach aus 
der Wertunggenommen werden, wenn mehrals eine der 
Antwortoptionen als zutreffend anerkannt werden muss. 
Stattdessen muss alien Teilnehmern, die eine der zutref- 
fenden Antworten gegeben haben, diese Antwort aner- 
kannt werden (man vergleiche hierzu auch die Regelun- 
gen bei den schriftlichen Staatsexamina des Institutsfur 
medizinische und pharmazeutische Prufungsfragen IMPP). 
Bei begrundeten Einspruchen gegen Prufungsaufgaben 
oder ihrer Bewertungsollen die notwendigen Korrekturen 
bei alien Prufungsabsolventen durchgefuhrt (d. h. nicht 
nur bei den Beschwerdefuhrern) und bekannt gegeben 
werden. Es ist darauf zu achten, dass berechtigte Einspru- 
che und die daraus resultierenden Korrekturen (Verant- 
wortlichkeiten bei Entscheidungen)dokumentiert werden. 
Werden Prufungsaufgaben als fehlerhaft erkannt, so ist 
ein verbindliches Vorgehen notwendig, bei dem gewahr- 
leistet ist, dass durch fehlerhafte Aufgabenstellungen 
Studierende nicht benachteiligt werden. Ist eine Aufgabe 
nicht losbar, so kann 
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1. die Aufgabe aus der Wertung genommen und die 
maximal erreichbare Punktzahl entsprechend redu- 
ziert oder 

2. die bei dieser Aufgabe ursprunglich vorgesehene er- 
reichbare Punktzahl alien Studierenden zugebilligt 
werden (hier bleibt die maximal erreichbare Punktzahl 
unverandert). 

Bei Korrekturen der Antwortmoglichkeiten nach Bekannt- 
gabe des Ergebnisses durfen Prufungsbewertungen der 
Studierenden nicht nachtraglich verschlechtert werden. 

5.3. Priifungsbericht 

Es wird ein Prufungsbericht erstellt, der die Angaben zur 
Bewertung und Benotung sow/'e die statistische Analyse 
der Ergebnisse umfasst. Insbesondere sind darin Veran- 
derungen der Aufgabenbewertungen oder -gewichtungen, 
derals korrekt gewerteten Losungen und nicht gewertete 
Aufgaben unter Angabe der fur die Anderungen Verant- 
wortlichen zu dokumentieren. 

5.4. Kontrollstichproben 

Es erfolgt eine stichprobenartige Kontrolle der Korrektu- 
ren und Bewertungen. 

Neben einerstichprobenartigen Kontrolle der Korrekturen 
und Bewertungen isteine Kontrolle der Prufungsleistun- 
gen aller durchgefallenen Studierenden zu empfehlen. 
Kontrollen schriftlicher Prufungen mussen durch unab- 
hangige Korrektoren vorgenommen werden. Werden 
Klausuren mit Hilfe von Beleglesern eingelesen, so sind 
ebenfalls stichprobenartige Uberprufungen notwendig. 
Art und Umfang von Kontrollen sollten dokumentiert 
werden. 

5.5. Dokumentation der Ergebnisse, Auf bewahrungsricht- 
linien 

Die Prufungsergebnisse und Notenspiegel werden durch 
die Facher oder zentral zusammengestellt und zur gesi- 
cherten Dokumentation zentral gespeichert. 
Aufbewahrungsfristen fur Prufungen und Prufungsunter- 
lagen sind verbindlich (z. B. in der Prufungsordnung) 
festzulegen. Es gibt keine einheitlichen Vorgaben fur die 
Aufbewahrungszeiten - es gelten die entsprechenden 
Bestimmungen vor Ort (z. B. Landesarchivierungsord- 
nung). Bitte informieren Sie sich bei Ihrer Rechtsabteilung. 
Als Anhaltspunkt kdnnen folgende Regelungen gelten: 
Schriftliche Prufungen und mundliche Prufungsprotokolle 
sind nach abgeschlossener Prufung mindestens 18 Mo- 
nate aufzubewahren. Bei computerbasierten Prufungen 
sind die Einzelergebnisse in Form von Prufungsprotokol- 
len 18 Monate abzuspeichern. Die Listen uber Prufungs- 
teilnehmer und Leistungsnachweise sind mindestens 10 
Jahre in Papierform oder digital zentral aufzubewahren. 
Bei Einspruchen gegen die Prufung durfen bis zur endgul- 
tigen Entscheidung keine Unterlagen vernichtet werden. 



6. Ruckmeldung an die 
Studierenden 

Ruckmeldungen an die Studierenden uber ihre Prufungs- 
leistungen sind transparent und zeitnah zu geben. Nur 
so konnen Prufungen als Instrument zur Lernsteuerung 
effektiv eingesetzt werden. 

6.1. Bekanntgabe der Ergebnisse 

Eine datenschutzkonforme Bekanntgabe der Prufungser- 
gebnisse erfolgt innerhalb eines angemessenen und 
vorab festgelegten Zeitraums. Dieser Zeitraum sollte 3 
Wochen nicht ubersteigen. 

Bei der Bekanntgabe von Noten sind die datenschutz- 
rechtlichen Bestimmungen einzuhalten. Insbesondere 
istetwa ein offentlicherAushangder Prufungsergebnisse 
mit Nennung personlicher Daten unzulassig. 

6.2. Priifungseinsicht 

Die Studierenden haben innerhalb einer angemessenen 
Frist die Moglichkeitzur Einsicht in ihre Prufungsunterla- 
gen. Die entsprechenden gesetzlichen Vorgaben sind 
dabeizu berucksichtigen. 

Den Studierenden muss auf Nachfrage oder Antrag Ein- 
sicht in ihre eigene Prufungsarbeitgewahrt werden. Dabei 
ist eine angemessene Zeit zur Einsichtnahme nach Be- 
kanntgabe des Ergebnisses zu gewahrleisten. Die Mog- 
lichkeit der Einsichtnahme in die Klausur sollte den ge- 
samten Zeitraum der Einspruchsfrist umfassen. Das 
Terminangebot zur Einsichtnahme muss angemessen 
sein. Fur die Zeit der Einspruchsfrist sollte das Terminan- 
gebot offentlich bekannt gemacht sein. Die Institution 
kann teste Zeiten fur eine solche Einsichtnahme festset- 
zen. Diese mussen mit den Ankundigungen zur Prufung 
veroffentlicht werden. Sollte es Studierenden aus begrun- 
detem Anlass nicht moglich sein, wahrend dieses Termins 
Einsicht zu nehmen, ist die Einsichtnahme anderweitig 
zu ermoglichen. Die Einsichtnahme sollte unter Aufsicht 
erfolgen, weshalb eine Terminsetzung zur Vorbereitung 
einer parallelen Einsichtnahme mehrerer Teilnehmer 
sinnvoll ist. 

6.3. Einspruchsfrist 

Die Frist zum Einspruch gegen Prufungsergebnisse muss 
wenigstens einen Monat ab der Bekanntgabe der Pru- 
fungsergebnisse umfassen. Innerhalb dieses Monats 
sollte auch die Einsichtnahme moglich sein. Hieruber hat 
eine individuelle Rechtsbehelfsbelehrung zu erfolgen, 
die mitdem Ergebnis dem Prufungsteilnehmer schriftlich 
zugestellt wird. 

Diese sollte folgenden Inhalt haben: 

Sie haben an der PrufungXYamXYteilgenommen 
und bestanden/nicht bestanden mit der Note XY. 
Rechtsbehelfsbelehrung: Gegen diesen Bescheid 
kdnnen Sie innerhalb von einem Monat Wider- 
spruch beim Lehrverantwortlichen (Studiendeka- 
nat) einlegen. 
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Es empfehlt sich eine (automatisierte) Benachrichtigung 
uber das Nichtbestehen mit Rechtsbehelfsbelehrung 
durchzufuhren. Ohne Rechtsbehelfsbelehrung gilt in 
Deutschland eine Einspruchsfrist von einem Jahr. 
Die Ablehnungeines Widerspruchs gegen die Bewertung 
von Aufgaben oder der Prufungsdurchfuhrung bedarf 
ebenfalls einer Rechtsbehelfsbelehrung. 

6.4. Art und Umfang der Riickmeldung 

Art und Umfang der Riickmeldung der Prufungsergebnis- 
se an die Studierenden mit dem Ziel, den Studierenden 
detaillierte Information zu ihrem Leistungsstand zu geben, 
sindfestgelegt(z. B. Aufgliederungdes Gesamtergebnis- 
ses nach Teilfachern o. a.). Eine langsschnittliche Ruck- 
meldung, die den Studierenden Informationen uber ihren 
Leistungsstand 

1. in Bezug aufdie an sie gestellten Erwartungen, 

2. aufdie anderen Prufungsteilnehmer sowie 

3. ihrer individuellen Leistungsentwicklung gibt, 

ist anzustreben. 

Aufgrund gesetzlicher Bestimmungen ist die Anzahl an 
durchzufuhrenden summativen Prufungen sehr hoch, 
was den Einsatzzusatzlicherformativer Prufungen haufig 
erschwert. Es sollte daher durch die Betrachtung der 
einzelnen summativen Prufungen einer Studierenden im 
Langsschnitt das formative Potential summativer Pru- 
fungsleistungen genutzt werden. 

6.5. Veroffentlichung von Aufgaben 

Eine Veroffentlichung der Prufungsaufgaben wird -zumin- 
dest solange kein hinreichend groEer Aufgabenpool zur 
Verfugung steht - nicht empfohlen. Eine einheitliche Re- 
gelung und Empfehlungen diesbezuglich (z. B. Notwen- 
digkeiteines vollstandigen Ruckflusses der Aufgabenblat- 
ter) sollte innerhalb einer Fakultat/eines Studiengangs 
angestrebt und den Studenten bekannt gemacht werden. 

7. Prufungsnachbereitung 

Die Nachbereitungder Prufung dientzunachst der Quali- 
tatssicherung des Prufungsgeschehens in einem Fach, 
indem Mangel bei Aufgaben aufgedeckt und korrigiert 
werden konnen. Weiterhin ist sie ein wichtiges Ruckmeld- 
einstrument an die Lehrverantwortlichen, da Prufungen 
daruber Auskunft geben, was die Studierenden tatsach- 
lich gelernt haben und ob und inwieweit Anderungen im 
Curriculum (z. B. veranderte Schwerpunktsetzungen bei 
den Lehrveranstaltungen) sinnvoll oder erforderlich sind. 

7.1. Nachbegutachtung der Priifung (Post-Review) 

Zur Qualitatssicherung und -verbesserung kunftiger Pru- 
fungen findeteine schriftlich dokumentierte Nachbewer- 
tung (Post-Review) der Prufung statt, an der die Prufungs- 
beauftragten teilnehmen. Anhand inhaltlicher Kriterien, 
teststatistischerAuswertungsergebnisse (z. B. Schwierig- 
keiten, Trennscharfen, Reliabilitat) sowie studentischer 
Kommentare und Hinweise werden in dieser Nachbewer- 



tung Verbesserungsvorschlage fur Prufungsaufgaben 
und Prufungszusammenstellung erarbeitet. 

7.2. Riickmeldung an Autoren und Fachverantwortliche 

Die Prufungsergebnisse, deren Auswertung sowie die 
Ergebnisse des Post-Review-Prozesses so/ten zeitnah 
mindestens einmal im Semester an die Fragenautoren, 
die Curriculumsentwickler und Fachvertreter weitergege- 
ben werden Adaquate Konsequenzen und erforderliche 
MaBnahmen sollten ergriffen und dokumentiert werden. 

Anmerkung 

1 Zur besseren Lesbarkeit wurde im Text z. T. auf die 
Nennungder weiblichen Form verzichtet, beideGeschlech- 
ter sind immer in gleichberechtigter Weise gemeint. 

2 Diese Empfehlungen haben keine rechtlich bindende 
oder prajudizierende Wirkung. Es gelten jeweils die ent- 
sprechenden Regelungen der fur die Prufung vera ntwort- 
lichen Institutionen bzw. die Gesetzeslage 

3 Eine Gleitklausel ist eine formale Vorschrift, bei der in 
Abhangigkeit von den Prufungsergebnissen der Teilneh- 
mer bei niedrigen Gesamtergebnissen eine Korrektur der 
Bestehensgrenze nach unten vorgenommen wird. Hier- 
durch werden Prufungen mit exorbitant hohen Durchfall- 
quoten verhindert. 

4 NachgewiesenermaSen besteht bei einer mundlichen 
Prufung im Vergleich zur schriftlichen Prufung eine Ten- 
denz zur besseren Bewertung. Beispiel: Kandidat A be- 
steht die Prufung nicht und erhalt die Moglichkeit einer 
mundlichen Nachprufung. Mit hoher Wahrscheinlichkeit 
erhalt er mindestens die Note 3. Kandidat B besteht die 
schriftliche Prufung mit einer 4. Er erhalt deshalb keine 
Moglichkeit zu einer Nachprufung und behaltim Endzeug- 
nis die Note 4. Kandidat B hat keine Moglichkeit, die 
Notezu verbessern und istgegenuber Kandidat A benach- 
teiligt. 

5 Kritisch ist hierbei, dass aus Tests generelle Ruckschlus- 
se uber Individuen oder Gruppen gezogen werden, die 
auf einer sehr limitierten Anzahl von Stichproben basie- 
ren. Nur bei hoher Validitat istdie Generalisierunganhand 
der Testergebnisse auf andere Situationen zulassig. In 
der klassischen Testtheorie sind Objektivitat und Reliabi- 
litat Voraussetzung fur eine hohe Validitat. 
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Recommendations of the German Society for Medical 
Education and the German Association of Medical 
Faculties regarding university-specific assessments during 
the study of human, dental and veterinary medicine 

Abstract 

The practice of assessing student performance in human, dental and 
veterinary medicine at universities in German-speaking countries has 
undergone significant changes in the past decade. Turning the focus 
to practical requirements regarding medical practice during undergradu- 
ate study away from an often theory-dominated curriculum, the academic 
scrutiny of the basics of teaching medical knowledge and skills, and 
amendments to legislation, all require ongoing adjustments to curricula 
and the ways in which assessments are done during undergraduate 
medical education. To establish quality standards, the Gesellschaftfur 
medizinische Ausbildung (GMA German Society for Medical Education) 
reached a consensus in 2008 on recommendations for administering 
medical school-specific exams which have now been updated and ap- 
proved by the GMA assessments committee, together with the Medizin- 
ischer Fakultatentag (MFT German Association of Medical Faculties), 
as recommendations for the administration of high-quality assessments. 

Keywords: Recommendations, assessment 
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Introduction 

These recommendations for university-specific assess- 
ments are aimed toward all those who are employed 1 in 
human, dental, and veterinary medicine at universities 
in Germany, Austria and Switzerland, who are entrusted 
with the design, conduction and evaluation of school- 
specific exams, meaning teachers and lecturers, deans 
of studies, and also curricular designers and teaching 
coordinators due to the close interconnection between 
teaching and testing. These recommendations cover the 
quality standards requisite for objective, reliable, valid 
and, in turn, justifiable testing. Written in the form of a 
checklist, these recommendations are to serve as a 
practical tool for structuring and organizing exams. 

Background 

In 2008, the GMA assessments committee, along with 
the Baden Wurttemberg Center of Excellence for Assess- 
ment in Medicine, jointly presented the Leitlinien fur 
fakultatsinterne Leistungsnachweise in der Medizin 
(Guidelines for assessment in medical faculties) [lj.This 
was to help establish agreed quality standards for exams 
required of medical schools in Germany by the 2002 
amended version of the medical licensure act so that the 



internationally recognized standards for high quality 
methods of assessing performance are met(e.g. [2], [3], 
[4]). Its significance is evident in various publications that 
have appeared on testing formats and the quality of uni- 
versity assessments in response to the context behind 
these recommendations [5], [6], [7]. 
The basic importance of feedback and performance as- 
sessment along with their ability to guide learning in 
medical education and the resulting necessity of system- 
atically including testing in the curriculum (constructive 
alignment, programmatic assessment [8], [9], [10], [11], 
[12]) is commonly known; however, their implementation 
in practice is still deficient in many cases. This applies in 
particular to curricular content that goes beyond the tra- 
ditional and prevailing teaching of medical expertise, as 
it does in the CanMEDS role model, for instance. Based 
on this role model, the competences and skills required 
in medical education are defined in the Swiss Catalogue 
of Learning Objectives and the National Competency- 
based Catalogue of Learning Objectives for Undergradu- 
ate Medical Education (NKLM) [13] currently being draf- 
ted in Germany. 

These developments in the requirements placed on 
medical education must also be reflected in the proced- 
ures for assessing performance; newtestingformatsand 
methods for evaluating the necessary skills and compet- 
ences for practicing medicine must be developed and 
applied. In practice this means that exams during medical 
study will more frequently display a combination of differ- 
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ent testing formats, that formative tests will take on a 
greater presence than summative tests [12], and higher 
value will be placed on criteria-oriented evaluations. This 
revision of the recommendations from 2008 addresses 
these issues. In particular, it must be ensured that the 
same quality requirements regarding measurement reli- 
ability and validity that are placed on traditional assess- 
ment methods are also demanded of innovative testing 
formats. 

The focus of these recommendations continues to be 
those assessments that must be passed at a medical 
school in order to receive graded credit (Leistungsnach- 
weis). Such summative or accumulative evaluations aim 
to reflect a final determination of skill level [14]. The 
formal - in particular statutory - requirements placed on 
purely formative tests are generally much fewer; for the 
quality of question content, however, the same require- 
ments are in effect as for summative tests. 
The authors of these recommendations are aware that 
a complete change of approach confronts medical schools 
with substantial organizational and personnel problems 
which can only be dealt with over the medium or long 
term. Despite this, examples at medical schools demon- 
strate that all the points covered by these recommenda- 
tions can be fulfilled. The schools are therefore called 
upon to improve the quality of their assessments and 
evaluations in an ongoing process. To provide support 
for this, the GMA assessments committee intends to 
publish practical approaches as examples for implement- 
ing these recommendations. 

Revision of the Recommendations 

In response to the developments mentioned above, a 
revision of the recommendations issued in 2008 was 
decided upon in 2012 by the GMA assessments commit- 
tee. As part of the International Conference on Compet- 
ency-based Assessment in Heidelberg on July 4, 2012, 
the first proposals for improvement (see [15]) were draf- 
ted. In another meeting on September 27, 2012 at the 
annual GMA conference in Aachen, subject areas 1-4 
(general structural pre-requisites, exam design and eval- 
uation, organizational preparation for conducting exams, 
administering exams) were jointly discussed in depth and 
compiled in cooperation with the MFT working group on 
assessments. A further round of discussion and focus on 
subject areas 5-7 (evaluation and documentation, feed- 
back for students, post-processing) took place at the 
committee meeting with the MFT working group during 
the GMA conference in September 26, 2013 in Graz. 
After inclusion of the agreed changes, the revised version 
was supplemented further by written consent. In January 
2014 an external legal review 2 of this version was under- 
taken by a Hanover law firm specializing in scholastic 
examination law. The resulting changes were included at 
the beginning of February 2014 and discussed on Febru- 
ary 11, 2014 at a meeting of the GMA assessments 
committee. Any remaining open points were clarified at 



this meeting and included. The recommendations were 
presented to the MFT working group on teaching/cur- 
riculum and the GMA executive board in May 2014 and 
approved. Both the MFT and GMA support these recom- 
mendations, which have been given the character of a 
guideline. 

Explanation of the new version of 
the recommendations 

The first version of the recommendations [1] consisted 
of the individual points articulated in the form of a 
checklist with corresponding numbered explanations. To 
ease readability, the individual points of the recommend- 
ations and their explanations are formulated here as 
running text; an additional checklist is included in the 
appendix. The individual criteria from the appended 
checklist appear in cursive in the following text (see At- 
tachment 1). 

1. General structural pre-requisites: 
requirements regarding form and 
content 

The structural pre-requisites cover criteria that should 
guarantee curricular inclusion of the courses and lectures 
upon which the exams draw, formal requirements for 
notifying students, as well as rules and regulations and 
training those responsible for the exams. They do not 
refer to the preparation or administration of a concrete 
assessment, but rather apply to the basic conditions that 
are needed for high-quality testing. 

1.1. Comprehensive assessment program 

A comprehensive assessment program, in which the 
number, scope, content, timeframe and format of the 
individual summative and formative tests to be taken 
during undergraduate medical study are coordinated with 
each other, is available to all students and teachers. 
The types of assessments given at the medical school or 
as part of the degree programs in human, dental or 
veterinary medicine, along with their administration and 
evaluation should be listed and laid down in the relevant 
formal rules and regulations (Studienordnung, Prufung- 
sordnung, or in appropriate rules for implementation). 
Attention is to be paid that the provisions allow sufficient 
room for the establishment of innovative forms of assess- 
ment. 

It should be noted that the exam content is tested with 
suitable types of assessment that not only reflect methods 
for assessing theoretical knowledge, but also practical 
skills; (Triangulation: assessment on the basis of different 
sources at different points in time, under different condi- 
tions, through different people and with different methods 
[16], [17]). For example, theoretical knowledge can be 
appropriately measured through written tests, practical 
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content with objectively structured practical/clinical ex- 
ams (OSPE/OSCE). The types of assessments should 
fulfill the particular quality requirements for objectivity, 
reliability and validity. If the score is based on different 
exam components, the requirement regarding measure- 
ment reliability will refer to the entire exam and not only 
to the individual components (see explanation under 2.6). 
To prepare students as well as possible for their future 
medical profession, learning objectives are to be included 
in the curricula that go substantially beyond medical ex- 
pertise and technical skills. To accomplish this, it is also 
necessary to develop suitable types of exams and con- 
structs that allow for appropriate, reliable and feasible 
assessment of these competences. This requires the use 
of new testing formats, in particular workplace-based 
exams, such as DOPS, encounter cards or 360° assess- 
ment, to assess communication skills, professional de- 
cision-making, management skills, etc. Special attention 
to the quality assurance of these forms of testing is re- 
quired. It is important to ensure sufficient training of the 
examiners in advance. The use of appropriate methods 
of analysis (e.g. generalizability theory) must be provided 
for when analyzing assessment results as a control of 
the lower standardizability of an exam situation, as exists 
for workplace-based performance assessments. 
Logistically, the measurement of nonsubject-specific 
learning objectives is often impossible within the scope 
of the individual subject exams. In this case, other test 
constructs are conceivable, in which components of other 
separate assessments are compiled in an interdisciplinary 
manner similar to a portfolio and assessed. Bydoingthis, 
the communication stations in OSCE's for different sub- 
jects could be combined together for an assessment of 
the student's skills as communicator. This portfolio could 
also cover the documentation of critical events (for in- 
stance for the assessment of professional conduct). 

1.2. Catalogue of learning objectives 

For each curricular unit defined in the Studienordnung 
(e.g. subject, module, course, seminar, interdisciplinary 
field) in the pre-clinical and clinical phases of study there 
is a comprehensive written catalogue of learning object- 
ives. 

Which learning objectives are to be imparted in which 
courses must be evident in the learning objective cata- 
logue as a whole, if such a catalogue exists. 

1.3. Informing students about the learning objectives 
catalogue 

The students are informed of the specific learning and 
assessment objectives in a timely manner prior to each 
curricular unit/module. 

1.4. Suitable assessment formats 

The knowledge, skills and attitudes defined in the learning 
objectives are assessed by means of suitable testing 
formats. In particular, procedures are to be used which 
are suitable for assessing skills in making medical de- 



cisions and taking medical action, as well as skills in 
conducting medical consultations (see 1.1). 
In addition to written forms of assessment (multiple- 
choice or open-ended questions) which primarily serve 
to test theoretical knowledge, the OSCE is the type of 
exam established to assess practical skills taught and 
acquired in medical degree programs. To measure other 
competence areas concerning medical practice, still fur- 
ther testing formats are needed that make reliable, 
workplace-based performance assessments possible. 
Belonging to these types of exams are, for example, 
miniCEX, 360° assessments, encounter cards, and direct 
observation of practical skills (DOPS). 

1.5. Written rules for exam preparation and assessment 
procedures 

Written rules should exist for the following aspects and 
details. 

1. Pre-requisites for participation 

2. Scheduling exam dates (including repeat sessions) 
and formal assessment procedures. 

For each exam, clear rules and regulations should 
be followed as standard practice for the formal as- 
sessment procedure. These rules and regulations 
should be recorded in writingand address the follow- 
ing aspects: 

- Requirements regarding how and when an exam 
is announced 

- Requirements regarding how and when to register 
students for the exam. If applicable, automatic regis- 
tration for the exam occurs through assignment to 
a module. 

- Number of examiners and their qualifications (e.g. 
specialist physician, post-doctorate, etc.) 

- Duration of the exam 

- Introductory sessions about the exam (e.g. individu- 
al appointments for instructions on taking computer- 
based assessments) 

- Announcements at the start of the exam 

- Study aids allowed during the exam 

- Rules about students keeping copies of exams 
afterwards 

- How to handle tardy appearances to an exam 
session 

- Withdrawal from or failure to attend an exam ses- 
sion 

- How to handle attempts at cheating 

- Rules about quitting in the middle of an exam 

3. Rules regarding the types of assessments that can 
be used in the degree program (see 1.1) 

4. Definition of the pre-requisites for space and time 
and the conditions for conducting the assessment 
(see 3.3) 

5. Rating scales, passing scores, application of a 
grading curve or an automatic adjustment clause 3 
(see 2.5, 2.8) 

6. Evaluation in the case of errors in the questions 
asked (see 5.2) 
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7. Weighting of component exams (see 3.1) 

8. Compensation options and disability compensation 
during exams (see 1.6) 

9. Conditions for participation and procedures for re- 
peat and re-testing (see 1.6) 

10. Announcement and inspection of exam results (see 
6.2) 

11. Rules regarding appeals against scores and test 
questions (see 5.2, 6.3) 

12. Responses to violations of the conditions for conduct- 
ing exams and extraordinary disruptions of test ad- 
ministration, as well as rules for any repeat testing 
necessary as a result (see 4.3) 

13. Publication of questions (see 6.5) 

14. Documentation of the assessment and its results 
(see 5.5) 

1.6. Compensating exam performance, retesting and 
repeat testing 

1. If it is impossible for students to attain graded credit 
or components of graded credit, or possible only un- 
der unreasonable circumstances that arise from the 
nature or form of exam administration or conduction, 
then it should be fully clarified under which conditions 
test performance can be compensated. 

This applies to students with physical disabilities for 
whom, in certain cases, the advocate for disabled 
students should be involved or to students with limited 
German language skills who are not enrolled in the 
degree program as conventional students (students 
participating in international student exchange pro- 
grams, e.g. Erasmus). 

2. The conditions for administering and sitting for repeat 
and re-testing are to be set down in the authoritative 
legal provisions (Studienordnung, Prufungsordnung). 
Likewise, it must be determined if and to what extent 
assessments leading to grade improvement will be 
given. 

The testing format for repeated and re-testing ses- 
sions should match the format of the initial assess- 
ment; for instance, no written or oral re-testing should 
be conducted for a failed OSCE. Likewise, in the case 
a written test is failed, no oral re-assessment should 
take place 4 . 

For separate repeat assessments (meaning assess- 
ments in which mostly candidates who have failed 
the test at least once are tested), a modification of 
the automatic adjustment clause is recommended in 
certain cases (see also 2.5). 

1.7. Persons responsible for assessments 

1. In each subject, at least one person and their deputy 
shall be appointed as responsible for the exam and 
the related tasks shall be clearly defined. (Scope of 
responsibility: e.g. blueprint, question generation, 
conduction, grading, pre- and post-review, analysis, 
feedback for curriculum developers). 

2. The responsible persons must take part in profession- 
al training on the topic of assessments. 



Each person responsiblefortheassessmentin regard 
to a specific curricular area (subject, module, block, 
etc.) should be able to demonstrate certified training 
on the topic of assessments and testing. 

2. Assessment design and analysis 

The following recommendations refer to the preparation 
of concrete exams. They affect the curricular integration 
of test content and measures to ensure the quality of 
questions and overall assessment (reliability and validity), 
as well as test administration that is economically feasible 
and transparent for students. 

2.1. Coordination of exams with the comprehensive as- 
sessment program 

The individual exams are to be coordinated with the 
medical school's comprehensive assessment program. 
This coordination affects not only summative, but also 
formative performance feedback. 

2.2. Validity 

Each individual exam is based on a written blueprint that 
representatively maps out the subject-specific exam 
content. 

The blueprint serves to ensure the validity of the assess- 
ment's content. This guarantees 

1. that the questions represent the subject area being 
tested and 

2. avoids the presence of any content irrelevant to this 
assessment (construct-irrelevant variance). 

Validity is the criterion for test quality. It is a measure of 
whether or not the data gained through the measurement 
represent, as intended, the quantity to be measured, 
meaning the knowledge or skills in the subject area to 
be covered by the assessment: Does the test measure 
what it is supposed to measure 5 ? 
After analyzing the assessments, further sources of 
validity can be investigated: 

• Are the exam scores plausible? 

• Is there a high correlation between this exam and 
other exams that are meant to measure the same 
construct (e.g. correlation between a multiple-choice 
test on internal medicine and the sections on internal 
medicine contained in the state medical examina- 
tions)? 

2.3. Inclusion of subject area representatives 

Representatives from all the affected subject areas are 
involved in putting the exams together. 

2.4. Pre-review of the test questions and analyzing con- 
tent validity 

1. Prior to administering an exam, a standardized ana- 
lysis is carried out regarding the content and form of 
the test questions (pre-review). 
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In respect to testing formats, for which only limited 
standardization options exist (e.g. workplace-based 
exams), it must be determined how different condi- 
tions and degrees of difficulty are to be taken into 
account (e.g. detailed standard setting). 
When creating exams, the following aspects should 
be considered overall in regard to validity: 

- Is each question of a high quality? It is especially 
important that only the skill/ability being tested (e.g. 
knowledge of a specific subject area) is necessary to 
arrive at the correct answer and not other skills (e.g. 
language skills). 

- Is the content generally valid/evidence-based and 
does not, for instance, represent local doctrine? 

- Does the exam's content correspond with the cur- 
riculum/learning objectives? 

- Does the content involve knowledge that can be 
expected in terms of the current level of education 
and does not involve content that, for example, be- 
longs to a later phase of study or advanced medical 
training? 

- Is the content of the material to be tested represen- 
ted appropriately and extensively with its sub-areas? 
To ensure this, suitable methods for compiling ques- 
tions must be selected as standards (see 2.2 Blue- 
print). 

- Have the test questions and the entire exam been 
subjected to a thorough review process? 

- Is the theoretical framework based on sound and 
comprehensive reasoning? 

- Does the exam appear credible to the candidates? 
(Acceptance) 

2. At least two representatives from the subject area 
and one from another discipline take part in the 
review. 

3. The results of the review must be documented. 
2.5. Passing scores 

1. Prior to administering an exam, the lowest possible 
passing score will be set down in writing by an inter- 
disciplinary board of experts and determined accord- 
ing to content-related criteria (e.g. by means of a 
standard setting procedure) or a formal criterion (e.g. 
60% rule). 

Passing scores should be determined to the extent 
possible using content-related criteria according to a 
criteria-oriented assessment scale (as an example, 
see standard-setting methods for OSCE's). For mul- 
tiple-choice questions, formal criteria (e.g. the 60% 
rule) should be applied at the very least. 

2. A rule for applying an automatic adjustment clause 
is set down in writing. 

A rule for automatic adjustments to the grading curve 
is generally necessary for exams with multiple-choice 
questions. In the degree program, a uniform rule 
should clearly state for which types of tests and in 
what manner automatic adjustment will be universally 
applied. It must be determined how exams of mixed 



formats are to be treated (e.g. multiple-choice and 
open-ended questions). 

In addition to a criteria-oriented passingscore, appro- 
priate rules to compensate for unreasonably difficult 
exams should also be made for other types of assess- 
ments and these must be communicated to the stu- 
dents in a timely manner. 

As a simplification for exams with multiple-choice 
questions, we recommend a modified automatic ad- 
justment clause that takes into account the average 
grade of all candidates sitting the test for the first 
time directly following the course (without restricting 
this to traditional, full-time students, etc.). Appropriate 
rules need to be defined for re-testing and repeat 
tests where a substantial proportion of the parti- 
cipants are not taking the test for the first time. 
3. The procedure for rounding the lowest passing score 
and borderline point totals must be definitively set 
down in writing. 

If the lowest passing score for a test with 99 questions 
and a minimum percent of 60% is 59.4 points, then 
rounding the passingscore up to 60 points is recom- 
mended if only full points are given for the test ques- 
tions. If half points are assigned, the passing score 
would then be set at 59.5 points (according to the 
German medical licensure act (AAppO) the minimum 
percentage to pass must be achieved or exceeded, 
meaning that in no case are scores to be rounded 
downward). 

2.6. Assessment reliability 

For summative tests, a reliability of at least 0.8 is to be 
expected for the achievement of graded credit 
(Leistungsnachweis). 

We recommend that graded credits for a subject are 
based on multiple component exams to the extent that 
is methodically possible (see explanation under 1.1). 
Here, the criterion of a minimum reliability of 0.8 is to be 
applied to the overall assessment and not necessarily to 
the individual component exams. An example for this 
would be if in a subject a student must take a written 
exam on theoretical knowledge and undergo an OSCE of 
practical skills. It is possible that, for the exam and the 
OSCE, the reliability of each individual assessment is 
lower than 0.8, but the reliability of the two combined 
together can be distinctly higher. To determine reliability 
of combined graded credits, we refer to the relevant liter- 
ature (e.g. [18]). 

It must be noted that component exams which cannot 
be compensated for by other assessment scores must 
possess sufficient measurement reliability regarding the 
decision to pass or fail students, in order to avoid stu- 
dents being denied credit on their academic transcripts 
due to one deficiently reliable component exam. Examples 
of this are knock-out stations in an OSCE or components 
for interdisciplinary graded credits that must be passed 
separately. 

So that an assessment fulfills the minimum reliability of 
0.8 as an individual exam, as a general rule at least 40 
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high quality questions are necessary for a multiple-choice 
test and at least 12 stations for an OSCE.This information 
can only serve as an approximate reference. Depending 
on the test objective, quality of questions, and the student 
cohort being assessed, considerable fluctuations are 
possible which is why the statistical values of correspond- 
ing past exams on the subject should be drawn upon to 
estimate the expected reliability. 
"Exotic" subjects, in particular, are confronted by the 
problem that a minimum reliability of 0.8 can only be at- 
tained with difficulty due to the scope of the exam. A 
solution offered in human medicine in Germany is the 
concept of interdisciplinary graded credits (facherubergre- 
ifende Leistungsnachweise) allowing the combination of 
multiple subjects which are covered at about the same 
time in the curriculum into one exam. These are then 
represented by one overall score. If no interdisciplinary 
graded credits are possible, then an in-depth quality as- 
surance program should ensure the highest possible 
validity resulting from the representativeness of the 
questions in terms of the curricular material and the 
avoidance of questions that test for knowledge or skills 
not included in the learning objectives (construct-irrelev- 
ant variance). 

2.7. Use of resources 

The scheduled exam is conceived in such a way that it 
conserves resources. 

Under this heading, the possibilities for conserving re- 
sources in the development, administration and evalu- 
ation of exams are covered. Belongingto this are feeding 
the answer sheets into scanners, adequate numbers of 
test monitors, use of school/degree program test question 
pools, use of computer-based administration, standard- 
ized test-statistical analysis (e.g. centrally in the medical 
school), deployment of a minimum number of examiners 
(e.g. one per station for an OSCE is sufficient when mon- 
itored centrally), selection of resource-saving testing 
formats and question types (limit open-ended question 
to what is necessary). 

2.8. Evaluating the answers 

1. The rating scale to be applied (grades, points) to as- 
sessments should be uniform and binding for the 
degree program. 

2. The correct answers, the expectations, the grading 
guidelines, and mode of analysis must be determined 
in writing before the exam is administered. 

The correct answers and expectations are available 
to the examiner in writing. The written instructions for 
grading an exam are clear (e.g. regarding the assign- 
ment of partial points or evaluating open-ended 
questions). Recommendation: the same examiner 
should rate all student responses to a particular open- 
ended question. 

The mode of assessment for an OSCE is clearly 
defined. For each OSCE station or question, the 
number of points assigned is clear based on a 



checklist or global rating of skill/ability. The same 
applies for oral exams. 
3. The number of points for each individual ques- 
tion/task is determined before the start of the exam. 
For written exams with non-uniformly weighted ques- 
tions, the number of possible points for each question 
must be indicated on the exam. It must be noted that 
for multiple-choice questions which are not of the 
single-choice type (e.g. more than one true/false an- 
swer) the demonstration of partial knowledge is to be 
taken into consideration. 

2.9. Evaluation of component exams 

1. If the graded credits are composed of more than one 
component, the evaluations of the individual compon- 
ents should be done using a sufficiently differentiated 
rating scale. 

Grading scales, such as the German system of apply- 
ing a four-point grading scale to successfully passed 
exams, only roughly reflect actual test performance. 
If poorly nuanced grades from component exams are 
compiled to yield an overall grade, distortions in the 
assessment of the overall performance can arise as 
a result of any averaging. 

2. The procedure for rounding the grades must be clearly 
defined. 

Rounding to whole numbers, as for the four-point 
grading scale required by the German medical licen- 
sure act (AAppO) to indicate proficiency levels on the 
officially recognized certificate, should always be in 
the direction of the nearest whole number. In the case 
of equal distance (decimal places 0.500), rounding 
should be to the advantage of the student, meaning 
that 1.500 is rounded to the grade of 1, while 1.501 
is rounded to the grade of 2. 
It is recommended that partial evaluations used to 
compute an overall score are done on a scale with at 
least three decimal places. The use of three decimal 
places is sufficiently precise in normal cases to avoid 
distortion through repeated rounding (as occurs in 
the German system when 2.54 is rounded one 
decimal place to 2.5 and then, through repeated 
rounding, results in the better grade of 2). 
The rating scale should take a required equal distance 
between grade categories into account. For instance, 
if it is required of written exams that 60% to 70% of 
the possible points yields the grade of 4, and 70% to 
80% the grade of 3, 80% to 90% the grade of 2, and 
90% and above the grade of 1, then a grade-equival- 
ent decimal scale of 0.5 to 4.5 must also suffice. As 
a result, the interval of 80-90% of the possible points 
(grade of 2) reflects a same-sized interval in the 
grades of 2.5 to 1.5, and 90-100%, the same-sized 
interval of 1.5 to 0.5. A simple linear conversion of 
point scores into decimal values is only possible in 
this manner. 
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3. Organizational preparation for 
conducting exams 

Along with preparing exam content, various organizational 
and logistical preparations are called for to ensure a 
proper course of events during the assessment. 

3.1. Announcing exam dates and formats 

Exam dates and formats are announced to students at 
the beginning of a curricular unit. 
If the overall grade for a subject or interdisciplinary area 
is the product of multiple component exams, then the 
weighted value of each exam is to be announced. In the 
case of changes in the make-up of the overall grade or 
in the weighting of the components, clear transitional 
rules must be drawn up for students who are required to 
repeat the exams. 

3.2. Registering for exams 

For each assessment, written or online registration is 
required of students. Registering for a course and an 
exam can be done at the same time. Under certain cir- 
cumstances, it is possible that active registration is not 
required for exams which are mandatorily part of the 
curriculum. 

It should be determined in advance if students who fail 
an assessment are automatically registered for the next 
possible repetition or if separate registration is required. 
Summative tests are to be viewed as the conclusion of 
a curricular unit and should refer to the curricular mater- 
ial just covered. Therefore, it is recommended that the 
assessment(s) or final component exam be mandatorily 
administered to all students shortly after completing the 
curricular unit. 

3.3. Rooms and personnel for conducting exams 

1. To administer the exam it is ensured that sufficient 
rooms are available and that these pose comparable 
conditions and environments for all candidates. 

2. Sufficiently trained personnel are available to admin- 
ister the exam (examiners, monitors, graders for open- 
ended questions, etc.). 

3.4. Training and feedback for examiners 

1. Prior to administering the exam, the examiners and 
graders have received training regarding uniform 
grading criteria. 

Joint training of all who evaluate the candidates 
should be conducted to increase inter-rater reliability. 
This is especially necessary for simultaneously con- 
ducted exams during an OSCE, oral exams, and writ- 
ten exams with open-ended responses. 
For assessments where the examiner comes in direct 
contact with the candidate, training sessions with 
video recordings of exams are particularly helpful. 

2. Examiners have received training regarding giving 
feedback to students and explaining the tested ma- 



terial and its evaluation. This applies in particular to 
all formative tests. 

The training sessions need to be adjusted to meet 
the specific requirements of the testing format; in 
addition to more detailed initial training sessions, re- 
fresher courses must be conducted. The effectiveness 
of the training must be verified (e.g. through simulated 
students). 

3. Examiners receive feedback on their own perform- 
ance giving the exam. 

In the case of assessments where the influence of 
the examiner must be taken into consideration in the 
evaluation, feedback is to be given to the examiner 
(see 5.1). This means that for oral or oral practical 
exams, feedback is to be given regarding strictness 
or utilization of the rating scales. In certain cases, 
prior to the next assessment, examiners must undergo 
repeat training. 

4. Conducting exams 

4.1. Observance of formal criteria 

When administeringthe exam, the formal criteria defined 
in writing are adhered to and documented (e.g. using a 
checklist for the formal assessment procedure). 

4.2. Completeness of exams 

The completeness of the exams and materials are double- 
checked by the students or the test monitors prior to 
starting the exam. 

A clear assignment of both the question and answer 
sheets to each student and a monitored return of the 
same are recommended so that all sheets are returned 
at the end of the exam. 

4.3. Documenting the course of an exam 

The course of the assessment and any arising issues or 
problems are documented (e.g. recording the name of 
the persons responsible for the exam and for administer- 
ing it, the monitors, specific events, incidents of cheating, 
and any computer problems in the case of computer- 
based exams). 

Examples of violations to the conditions for administering 
the exam include: 

• Noise and disturbance through construction work 
during an exam 

• Rooms unsuitable for testing 

• Deficient test material or poor copies of test questions, 
errors in the numbering of questions 

• Computer failure during computer-based exams 

Students must assert immediately during or after the 
exam that a violation of proper administration has oc- 
curred. It is not permissible to wait for the exam scores 
and then, in the case of failure, claim that proper admin- 
istration of the exam did not take place. 
In the case substantial problems arise duringthe admin- 
istration of an exam, it is recommended that a repeat 



errs 



GMS Zeitschrift fur Medizinische Ausbildung 2014, Vol. 31(3), ISSN 1860-3572 



19/23 



Jiinger et al.: Recommendations of the German Society for Medical ... 



session be offered for all candidates and the better of 
the two results be counted. 

There should also be rules set down for reaching de- 
cisions about disruptions caused by test-takers and their 
possible exclusion, as well as the discontinuation of an 
exam (e.g. due to acute illness) and the corresponding 
documentation by the responsible person. 

5. Analysis and documentation 

A thorough, documented analysis of the assessment, in- 
cluding statistical analysis, is required to ensure the ex- 
am's content validity and legality. Errors in summative 
tests can cause considerable disadvantages to students 
which can range from increased study load and 
lengthened study time as a result of required repeat tests 
to the cancellation of scholarships as a result of unjusti- 
fiably low scores and dropping out of the degree program. 
In addition, statistical analyses and documentation are 
basic to the post-review of assessments (see 7.1). 

5.1. Statistical Analysis 

For all testing formats, an appropriate statistical analysis 
of the exam results is to be performed that covers, in 
particular, question difficulty and discrimination (primary 
analysis). 

For testing formats in which, in addition to the questions, 
other systematic influencing factors exist, such as exam- 
iner influences (e.g. OSCE), these are to be taken into 
consideration in the analysis (e.g. methods of the gener- 
alizability theory). For multiple-choice questions an addi- 
tional distractor analysis must be performed. 
Should there be indications of erroneous or unclear 
questions, then any such questions need to be double- 
checked in respect to form and content. 

5.2. Corrections of the analysis 

After any needed corrections to the evaluation of the 
questions or the exam, a final analysis of the exam shall 
take place (including further test-statistical analysis). 
The second review of the questions after administering 
the exam serves to solidify the legal conformity/non-ap- 
pealability of the exam scores. For this reason, a two-step 
procedure is recommended for analyzing assessments. 
The first step is test-statistical analysis of the exam, after 
which there a check is conducted to see if any of the 
questions are conspicuous in terms of difficulty or discrim- 
ination. According to current experience, very difficult 
questions (difficulty under 0.4) and questions with very 
low discrimination (below 0.2) are to be checked in terms 
of content accuracy by the responsible persons. 
If the questions are determined to be erroneous, re-ana- 
lysis of the exam is required. Only after performing the 
new analysis, should the exam scores be announced. Re- 
analysis is necessary if, for instance, additional correc- 
tions in how questions are graded must take place in re- 
sponse to student appeals (see below). 



Even in the case of machine grading, such as for com- 
puter-based exams, attention must be paid that all 
measures to ensure quality have been followed prior to 
announcing the scores. The person responsible for the 
assessment must formally release the results. 
When correcting erroneously asked questions, it must be 
ensured that no disadvantages to the candidates arise 
as a result. For instance, type-A multiple-choice questions 
(one of five) are not simply dropped from the evaluation 
if more than one of the possible responses must be re- 
cognized as correct. Instead, all candidates who gave one 
of the correct responses must be given credit for it (see 
also the rules for the written state examinations issued 
by the Institut fur medizinische und pharmazeutische 
Prufungsfragen [IMPP]). 

In the case of justifiable objections to the test questions 
or their evaluation, the necessary corrections must be 
undertaken for all those who completed the exam, 
meaning not just for the student filing the appeal, and 
made public. Attention must be paid that justifiable ob- 
jections and the resulting corrections are documented 
(e.g. scope of responsibility of those making decisions). 
If test questions are acknowledged as problematic, a 
legally bindingapproach is needed which guarantees that 
no disadvantages to students are caused by deficient 
test questions. If a question cannot be solved, then 

1. the question can be excluded from the valuation and 
the maximum number of possible points is reduced 
accordingly, or 

2. the total possible number of points allotted for this 
question is credited to all students (in this case the 
total number of possible points remains unchanged). 

In the case of corrections of the possible responses to a 
test question that occur after announcement of the exam 
results, the candidates' scores may not be subsequently 
lowered. 

5.3. Assessment reports 

An assessment report regarding the exam is generated 
covering information on evaluation and grading, along 
with the statistical analysis of the scores. In particular, 
any changes to the value or weighting of questions, the 
answers evaluated as correct, and unevaluated questions 
must be documented along with the name of the person 
responsible for the changes. 

5.4. Random checks 

A random check is carried out on the corrections and 
evaluations. 

Along with a random check of the corrections and evalu- 
ations, a check of the performance of all failed students 
is recommended. Inspection of written exams must be 
undertaken by impartial graders. If tests are read with 
the help of scanners, then random checks are also neces- 
sary. The nature and scope of these checks should be 
documented. 
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5.5. Documentation of the results, guidelines on archiv- 
ing 

The exam scores and performance records are compiled 
centrally, or by the subject departments, and saved 
centrally to ensure documentation. 
The lengths of time for keeping exams and test docu- 
ments are to be bindingly set down (e.g. in the exam 
regulations [Prufungsordnung]). There are no uniform 
requirements concerningthe length of time: the relevant 
valid provisions at the local level apply (e.g. state regula- 
tions on archiving [Landesarchivierungsordnung]). Please 
seek advice from your legal department in regard to this 
aspect. As a point of reference, the following rule can 
apply: written exams and records of oral exams are to be 
kept for at least 18 months after completion of the as- 
sessment. For computer-based exams, the individual 
scores are to be saved for 18 months in the form of test 
records. The lists of candidates and graded credits are 
to be centrally kept for at least ten years as hardcopy or 
digitally. In the case of appeals against the assessment, 
no documents may be destroyed until the final decision 
has been reached. 

6. Feedback for students 

Feedback for students regarding their performance on 
exams must be given in a timely and transparent manner. 
This is the only way assessments can be effectively used 
as an instrument to guide learning. 

6.1. Announcement of scores 

Announcement of the scores in a manner compliant with 
data privacy law occurs within an appropriate amount of 
time that has been defined in advance. This time period 
must not exceed three weeks. 

When announcing exam scores, the provisions under 
data privacy law must be observed. In particular, it is im- 
permissible to publicly post test results with personal in- 
formation. 

6.2. Inspection of assessment documents 

Students have the option of inspecting their exams 
within an appropriate period of time. The relevant stat- 
utory provisions are to be taken into account in respect 
to this. 

Students must be granted access to their own exams 
upon request or application. An appropriate period of 
time should be allotted for inspecting exams after an- 
nouncement of the scores. The option to view the com- 
pleted test should be possible throughout this entire time 
period. The dates and times for inspection must be 
reasonable and should be announced for the period in 
which any appeals may be submitted. The educational 
institution can determine fixed times for such inspections. 
These must be made known at the same time the exam 
is announced. Should students not be able to review the 
documents duringthis time for a justified reason, inspec- 
tion of the documents should be made possible in another 



way. The inspection should take place under supervision, 
which is why it makes sense to set a date for preparing 
simultaneous inspections by more than one test-taker. 

6.3. Deadline for appeals 

The deadline to appeal the exam score must be at least 
a month starting from the announcement of the results. 
The possibility to view exam documents should also be 
possible within this month-long period. Information about 
these rights must be individually communicated in writing 
and sent to the candidate with the exam result. 
This information should contain the following: 

You have sat for the XY exam on (date) and have 
passed/failed with the grade of XY. 
Information on right to appeal: You may file an 
appeal against this notification with the Dean of 
Studies within a time period of one month. 
Sending out (automatically generated) notifications re- 
gardingfailure of an exam, along with instructions on filing 
an appeal, is recommended. If there are no instructions 
on submittingan objection or appeal, then the time period 
allotted for this in Germany will be one year. 
Rejections of appeals against the evaluation of questions 
or objections concerning test administration must also 
contain instructions about legal recourse. 

6.4. Nature and scope of feedback 

The nature and scope of the feedback for students re- 
garding assessment results are defined with the goal of 
giving students detailed information on their proficiency 
levels (e.g. breaking the overall score down according to 
sub-disciplines, etc.). Longitudinal feedback is to be 
aimed for that gives students information on their profi- 
ciency level 

1. in relation to the requirements placed on them, 

2. in relation to the other candidates, and 

3. their own individual educational development. 

As a result of statutory requirements, the number of 
summative tests to be conducted is very high, which fre- 
quently makes the administration of additional formative 
tests difficult. For this reason, the formative potential of 
the summative test results should be utilized by consid- 
ering the individual summative tests of a student over 
the long-term. 

6.5. Publishing test questions 

Publication of the test questions is not recommended - 
as long as no sufficiently large question pool exists. Uni- 
form rules and recommendations on this (e.g. the neces- 
sary collecting of all sheets of paper with test questions) 
are to be striven for by the medical school or degree 
program and these are to be communicated to the stu- 
dents. 

7. Post-processing assessments 

Following up on an assessment initially serves to ensure 
the quality of a subject exam by allowing deficiencies in 
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questions to be discovered and corrected. Moreover, it 
is an important feedback instrument for teaching coordin- 
ators, since assessments provide information on what 
the students have actually learned, as well as if and to 
what extent changes to the curriculum are needed and 
would be meaningful (e.g. a change in focus during class 
sessions). 

7.1. Post-Review 

To assure and improve the quality of future exams, a 
written and documented post-review of the assessment 
will take place, in which the persons responsible for the 
exam participate. Using content-based criteria, results 
of test-statistical analysis (e.g. difficulty, discrimination, 
reliability) and student comments and suggestions, re- 
commendation for improvements to test questions and 
exam structure will be compiled in the post-review. 

7.2. Feedback for authors and subject representatives 

The assessment results, their analysis and the results of 
the post-review process need to be forwarded in a timely 
manner, once each semester, to the authors of the 
questions, curriculum developers, and the responsible 
subject representatives. Appropriate consequences 
should be drawn and necessary measures implemented 
and documented. 

Notes 

1 To facilitate the readability of the German version, the 
feminine grammatical form does not additionally appear 
in the text; the meaning includes both genders equally in 
all cases. 

2 These recommendations have no legally binding or 
precedential effect. The relevant statutory provisions and 
regulations of the educational institution responsible for 
the assessment apply in each individual case. 

3 An adjustment clause is a formal rule that allows the 
minimum passing grade to be lowered if the results of 
the candidates are overall low. By adjusting the grading 
curve, assessments with an exorbitantly high number of 
failures are prevented. 

4 It has been proven that there is a tendency to give better 
evaluations for oral assessments than for written ones. 
Example: candidate A does not pass the test and receives 
the opportunity to be re-examined orally. There is a high 
probability that he will be rated with a 3 at least. Candid- 
ate B passes the written assessment with a 4 and is not 
given the opportunity to be re-examined, leaving him with 
the grade of 4 on his official academic transcript. Candid- 
ate B has no opportunity to improve his grade and is thus 
disadvantaged in relation to Candidate A. 

5 It is critical here that generalized conclusions are drawn 
from the assessments about individuals or groups which 
are based on a very limited number of random checks. 
Only in the case of a high validity is the applicability of 
these generalizations to other situations permissible using 



the assessment results. In traditional test theory, objectiv- 
ity and reliability are pre-requisites for high validity. 
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